CN117094367A

CN117094367A - 内容生成方法、模型训练方法、装置、电子设备及介质

Info

Publication number: CN117094367A
Application number: CN202311358866.5A
Authority: CN
Inventors: 刘烨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2023-11-21
Anticipated expiration: 2043-10-19
Also published as: CN117094367B

Abstract

本申请实施例公开了一种内容生成方法、模型训练方法、装置、电子设备及介质，基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，其中，第一预训练模型用于根据第一模态的内容生成目标模态的内容，第二预训练模型用于将第一模态与第二模态进行特征对齐，目标模型用于根据第一模态的内容和第二模态的内容生成目标模态的内容；接着，获取并将第一模态和第二模态的第一样本内容输入至目标模型，生成目标模态的第二样本内容，基于第二样本内容对目标模型进行训练，从而能够降低模型对训练样本数量的依赖性，提高模型的训练效率，可广泛应用于云技术、人工智能、智慧交通等场景。

Description

内容生成方法、模型训练方法、装置、电子设备及介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种内容生成方法、模型训练方法、装置、电子设备及介质。

背景技术

目前，可以利用神经网络模型对多种模态的数据进行处理，在图像检索、视频分析、语音识别和自然语言处理等领域进行内容生成任务。在对神经网络模型进行训练时，提升生成的内容的准确性需要依赖于大量的样本数据，但由多模态的样本数据组成的训练样本一般数量稀少，且获取难度大，降低了模型的训练效率。

发明内容

以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种内容生成方法、模型训练方法、装置、电子设备及介质，能够降低模型对训练样本数量的依赖性，提高模型的训练效率。

一方面，本申请实施例提供了一种内容生成方法，包括：

基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，其中，所述第一预训练模型用于根据所述第一模态对应的特征提取器提取到的所述第一模态的内容的特征生成目标模态的内容，所述第二预训练模型用于根据所述第二模态对应的特征提取器提取到的所述第二模态的内容的特征，将所述第一模态与所述第二模态进行特征对齐，所述目标模型用于提取所述第一模态的内容的特征和所述第二模态的内容的特征，并根据所述第一模态的内容的特征和所述第二模态的内容的特征生成所述目标模态的内容；

获取所述第一模态和所述第二模态的第一样本内容，将所述第一样本内容输入至所述目标模型，生成所述目标模态的第二样本内容，基于所述第二样本内容对所述目标模型进行训练；

获取所述第一模态和所述第二模态的待处理内容，将所述待处理内容输入至训练后的所述目标模型，生成所述目标模态的目标内容。

另一方面，本申请实施例还提供了一种模型训练方法，包括：

获取所述第一模态和所述第二模态的第一样本内容，将所述第一样本内容输入至所述目标模型，生成所述目标模态的第二样本内容，基于所述第二样本内容对所述目标模型进行训练。

另一方面，本申请实施例还提供了一种内容生成装置，包括：

第一处理模块，基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，其中，所述第一预训练模型用于根据所述第一模态对应的特征提取器提取到的所述第一模态的内容的特征生成目标模态的内容，所述第二预训练模型用于根据所述第二模态对应的特征提取器提取到的所述第二模态的内容的特征，将所述第一模态与所述第二模态进行特征对齐，所述目标模型用于提取所述第一模态的内容的特征和所述第二模态的内容的特征，并根据所述第一模态的内容的特征和所述第二模态的内容的特征生成所述目标模态的内容；

第二处理模块，用于获取所述第一模态和所述第二模态的第一样本内容，将所述第一样本内容输入至所述目标模型，生成所述目标模态的第二样本内容，基于所述第二样本内容对所述目标模型进行训练；

第三处理模块，用于获取所述第一模态和所述第二模态的待处理内容，将所述待处理内容输入至训练后的所述目标模型，生成所述目标模态的目标内容。

进一步地，第一处理模块还用于：

基于第一预训练模型中第一模态对应的特征提取器、所述第一预训练模型的序列生成器、第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化；

所述第一预训练模型的序列生成器用于对所述第一模态的内容的特征进行特征映射，生成所述目标模态的内容；

所述目标模型的序列生成器用于对融合特征进行特征映射，生成所述目标模态的内容，其中，所述融合特征由所述第一模态的内容的特征与所述第二模态的内容的特征融合得到。

进一步地，所述目标模型还设置有特征融合器，所述特征融合器用于将所述第一模态的内容的特征与所述第二模态的内容的特征进行融合，得到所述融合特征。

进一步地，第一处理模块还用于：

获取所述第一预训练模型中所述第一模态对应的特征提取器的目标参数，其中，所述目标参数为最后一个输出层的参数；

将所述第一预训练模型的序列生成器中首个输入层的参数替换为所述目标参数。

进一步地，所述目标模型设置有用于将所述第一模态的内容的特征与所述第二模态的内容的特征进行融合的特征融合器，第二处理模块还用于：

降低所述目标模型中所述第一模态和所述第二模态对应的特征提取器的学习率，提升所述特征融合器的学习率；

基于所述第二样本内容对调整学习率后的所述目标模型进行训练。

进一步地，第二处理模块还用于：

获取所述特征融合器的第一原始学习率；

每当到达预设的训练步长时，根据预设的第一调整系数提升所述第一原始学习率，直至所述第一原始学习率达到预设的第一目标学习率。

进一步地，第二处理模块还用于：

获取所述目标模型中所述第一模态和所述第二模态对应的特征提取器的第二原始学习率；

每当到达所述训练步长时，根据预设的第二调整系数降低所述第二原始学习率，直至所述第二原始学习率达到预设的第二目标学习率；

其中，在同一个所述训练步长中，所述第二原始学习率的降低幅度小于所述第一原始学习率的提升幅度。

进一步地，所述第一模态和所述目标模态均为文本模态，第一处理模块还用于：

初始化所述第一预训练模型，获取所述文本模态的第一预训练内容，将所述第一预训练内容输入至所述第一预训练模型；

对所述第一预训练内容进行特征提取，得到第一预训练文本特征；

对所述第一预训练文本特征进行特征映射，生成所述文本模态的第二预训练内容；

根据所述第二预训练内容对所述第一预训练模型进行预训练。

进一步地，所述第二预训练内容的数量为多个，多个所述第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成，第一处理模块还用于：

分别确定各个所述第二预训练内容对应的预训练损失，对多个所述预训练损失进行加权，得到目标损失；

根据所述目标损失对所述第一预训练模型进行预训练。

进一步地，所述第一模态为文本模态，所述第二模态为图像模态，第一处理模块还用于：

初始化所述第二预训练模型，获取所述文本模态的第三预训练内容以及所述图像模态的第四预训练内容，将所述第三预训练内容和所述第四预训练内容输入至所述第二预训练模型；

对所述第三预训练内容进行特征提取，得到第二预训练文本特征；

对所述第四预训练内容进行特征提取，得到预训练图像特征；

确定所述第二预训练文本特征与所述预训练图像特征之间的特征距离，根据所述特征距离对所述第二预训练模型进行预训练。

将所述第二预训练文本特征与所述预训练图像特征进行融合，得到预训练融合特征；

对所述预训练融合特征进行分类，得到分类结果，其中，所述分类结果用于指示所述预训练融合特征属于文本特征或者图像特征中的任意一种，或者不属于文本特征或者图像特征中的任意一种；

根据所述分类结果对所述第二预训练模型进行预训练。

另一方面，本申请实施例还提供了一种模型训练装置，包括：

第四处理模块，用于基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，其中，所述第一预训练模型用于根据所述第一模态对应的特征提取器提取到的所述第一模态的内容的特征生成目标模态的内容，所述第二预训练模型用于根据所述第二模态对应的特征提取器提取到的所述第二模态的内容的特征，将所述第一模态与所述第二模态进行特征对齐，所述目标模型用于提取所述第一模态的内容的特征和所述第二模态的内容的特征，并根据所述第一模态的内容的特征和所述第二模态的内容的特征生成所述目标模态的内容；

第五处理模块，用于获取所述第一模态和所述第二模态的第一样本内容，将所述第一样本内容输入至所述目标模型，生成所述目标模态的第二样本内容，基于所述第二样本内容对所述目标模型进行训练。

进一步地，第四处理模块还用于：

进一步地，所述目标模型设置有用于将所述第一模态的内容的特征与所述第二模态的内容的特征进行融合的特征融合器，第五处理模块还用于：

进一步地，第五处理模块还用于：

获取所述特征融合器的第一原始学习率；

进一步地，第五处理模块还用于：

进一步地，所述第一模态和所述目标模态均为文本模态，第四处理模块还用于：

进一步地，所述第二预训练内容的数量为多个，多个所述第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成，第四处理模块还用于：

根据所述目标损失对所述第一预训练模型进行预训练。

进一步地，所述第一模态为文本模态，所述第二模态为图像模态，第四处理模块还用于：

根据所述分类结果对所述第二预训练模型进行预训练。

进一步地，所述第一模态和所述目标模态均为文本模态，所述第二模态为图像模态，第五处理模块还用于：

将所述文本模态的所述第一样本内容和所述图像模态的所述第一样本内容输入至所述目标模型；

分别对所述文本模态的所述第一样本内容和所述图像模态的所述第一样本内容进行特征提取，得到所述文本模态对应的样本文本特征以及所述图像模态对应的样本图像特征；

将所述样本文本特征和所述样本图像特征进行融合，得到样本融合特征；

对所述样本融合特征进行特征映射，生成所述文本模态的第二样本内容。

另一方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的内容生成方法或者模型训练方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的内容生成方法或者模型训练方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的内容生成方法或者模型训练方法。

本申请实施例至少包括以下有益效果：通过第一预训练模型中针对第一模态的特征提取器，以及第二预训练模型中针对第二模态的特征提取器对目标模型进行初始化，能够结合多个不同训练任务训练得到的特征提取器对目标模型进行桥接，可以帮助目标模型更快地收敛，高效地学习到有效的特征表示，有助于节省大量多模态的训练样本，降低目标模型对训练样本数量的依赖性，提高目标模型的训练效率，同时，由于第一预训练模型和第二预训练模型分别用于执行相应模态生成任务和跨模态对齐任务，且第一预训练模型和目标模型均用于执行目标模态的内容生成任务，因此，在基于第一模态和第二模态的第一样本内容对桥接得到的目标模型进行训练后，能够使得目标模型在基于多模态的内容生成目标模态的内容时，有效地提升生成性能，提升目标内容的准确性。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种可选的实施环境的示意图；

图2为本申请实施例提供的内容生成方法的一种可选的流程示意图；

图3为本申请实施例提供的第一预训练模型的结构示意图；

图4为本申请实施例提供的第二预训练模型的结构示意图；

图5为本申请实施例提供的对目标模型进行初始化的流程示意图；

图6为本申请实施例提供的目标模态的目标内容生成的流程示意图；

图7为本申请实施例提供的内容生成方法的效果示意图；

图8为本申请另一实施例提供的对目标模型进行初始化的流程示意图；

图9为本申请实施例提供的序列生成器的结构示意图；

图10为本申请另一实施例提供的对目标模型进行初始化的流程示意图；

图11为本申请实施例提供的第一预训练模型的参数共享的流程示意图；

图12为本申请实施例提供的第一原始学习率调整的效果示意图；

图13为本申请实施例提供的第二调整系数调整的效果示意图；

图14为本申请另一实施例提供的第一预训练模型的结构示意图；

图15为本申请实施例提供的第二预训练模型预训练的流程示意图；

图16为本申请另一实施例提供的第二预训练模型预训练的流程示意图；

图17为本申请实施例提供的模型生成方法的一种可选的流程示意图；

图18为本申请实施例提供的内容生成方法的整体流程示意图；

图19为本申请另一实施例提供的内容生成方法的整体流程示意图；

图20为本申请实施例提供的模型训练方法的整体流程示意图；

图21为本申请另一实施例提供的模型训练方法的整体流程示意图；

图22为本申请实施例提供的内容生成装置的结构示意图；

图23为本申请实施例提供的模型训练装置的结构示意图；

图24为本申请实施例提供的终端的部分结构框图；

图25为本申请实施例提供的服务器的部分结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。其中，目标对象可以是用户。此外，当本申请实施例需要获取目标对象属性信息时，会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

模态，是指数据集中不同类型的数据或不同的感知信息来源，例如，数据的模态可以包括有文本、图像、音频、视频等不同的数据类型。每个数据类型被称为一个模态，这些模态代表了数据中不同的信息方面或感知来源。

自然语言处理(Natural Language Processing，NLP)是指计算机科学与人工智能领域的一个分支，研究如何使计算机能够理解、分析、处理和生成人类自然语言的文本或语音数据。自然语言是人类在日常交流中使用的语言，包括文字和口语，它具有多样性、表达力和复杂性。自然语言处理旨在开发算法和技术，使计算机能够理解和使用人类自然语言，以实现自然语言和计算机之间的沟通与交互。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

为了解决上述问题，本申请实施例提供了一种内容生成方法、模型训练方法、装置、电子设备及介质，能够降低模型对训练样本数据的依赖性，提高模型的训练效率。

本申请实施例提供的方法可应用于不同的技术领域，包括但不限于云技术、人工智能、智慧交通等场景。

参照图1，图1为本申请实施例提供的一种可选的实施环境的示意图，该实施环境包括终端101和服务器102，其中，终端101和服务器102之间通过通信网络连接。

终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。可选地，终端101可以获取用于作为训练样本的第一模态和第二模态的第一样本内容，以及用于进行内容生成的第一模态和第二模态的待处理内容，并且可以将第一样本内容和待处理内容发送至服务器102。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。另外，服务器102还可以是区块链网络中的一个节点服务器。可选地，服务器102内部可以预先存储有第一预训练模型、第二预训练模型和目标模型，服务器102可以基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，然后将由终端101发送的第一样本内容输入至目标模型，生成目标模态的第二样本内容，并基于第二样本内容对目标模型进行训练；接着，将由终端101发送的待处理内容输入至训练后的目标模型，生成目标模态的目标内容。

示例性地，终端101可以获取得到用于作为训练样本的第一模态和第二模态的第一样本内容，以及用于进行内容生成的第一模态和第二模态的待处理内容，并将第一样本内容和待处理内容发送服务器102。服务器102内部预先存储有第一预训练模型、第二预训练模型和目标模型，可以先基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，从而可以结合多个不同训练任务训练得到的特征提取器对目标模型进行桥接，能够帮助目标模型更快地收敛，高效地学习到有效的特征表示，有助于节省大量多模态的训练样本，降低目标模型对训练样本数量的依赖性，提高目标模型的训练效率；然后将由终端101发送的第一样本内容输入至目标模型，生成目标模态的第二样本内容，并基于第二样本内容对目标模型进行训练，接着，将由终端101发送的待处理内容输入至训练后的目标模型，生成目标模态的目标内容，由于第一预训练模型和第二预训练模型分别用于执行相应模态生成任务和跨模态对齐任务，且第一预训练模型和目标模型均用于执行目标模态的内容生成任务，因此，在基于第一模态和第二模态的第一样本内容对桥接得到的目标模型进行训练后，能够使得目标模型在基于多模态的内容生成目标模态的内容时，有效地生成性能，提升目标内容的准确性。

在一种可能的实现方式中，第一模态、第二模态和目标模态可以互不相同，具体地，第一模态可以为视频模态，第二模态为文字模态，而目标模态为图像模态；或者第一模态与目标模态相同，而第二模态与目标模态不相同，具体地，第一模态和目标模态均可以为文本模态，而第二模态可以为图像模态。因此，可以利用基于第一模态和第二模态的数据所生成的目标模态的目标内容可以应用于摘要生成、内容检索、信息提取等等。

参照图2，图2为本申请实施例提供的内容生成方法的一种可选的流程示意图，该内容生成方法可以由终端执行，或者也可以由服务器执行，或者也可以由终端和服务器配合执行，在本申请实施例中，以该方法由服务器执行为例进行说明，该内容生成方法包括但不限于以下步骤201至步骤203。

步骤201：基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化。

在一种可能的实现方式中，第一预训练模型是用于根据第一模态对应的特征提取器针对第一模态的内容提取到的特征生成目标模态的内容的模型，第一预训练模型可以是用于进行相应模态生成任务的训练模型，即针对一种模态数据（如文本、图像或音频）进行预训练的模型，具体地，第一预训练模型中第一模态对应的特征提取器根据不同模态而不同，例如，针对视频模态和图像模态，特征提取器可以采用视觉自注意力模型（VisionTransformer，ViT）、残差神经网络（ResNet）和VGG卷积神经网络等；针对文本模态，特征提取器可以采用基于Transformer的双向编码模型（BidirectionalEncoderRepresentations from Transformer，BERT）；而针对音频模态，可以采用语音识别预训练模型（Hidden-Unit BERT，HuBERT）和音频转换器（AudioTransformer）等作为特征提取器来提取语音信息。以第一模态为文本模态为例，第一预训练模型中包括有用于将文本数据转换为相应特征表示的特征提取器，因此，第一预训练模型可以在大规模文本数据上进行预训练，学习到词汇、句法和语义等信息，进而可以在后续任务中进行分类、生成等任务，其中，第一预训练模型整体也可以作为第一模态对应的特征提取器，对目标模型进行桥接。如图3所示，图3是本申请实施例提供的第一预训练模型的结构示意图，第一预训练模型中除了包括有针对第一模态的特征提取器，还包括有用于生成目标模态的内容的序列生成器，针对第一模态的特征提取器可以对输入的第一模态的内容进行特征提取，得到输入内容在第一模态的特征表示，进而第一预训练模型中的序列生成器可以使用特征提取器针对第一模态的内容所提取到的特征表示作为输入，并根据这些特征表示生成与目标模态相符合的内容序列，即生成与第一模态的输入内容所对应的目标模态的内容。以第一预训练模型执行文本摘要生成任务为例，如图3所示，输入第一模态为文本模态的长文本数据至第一预训练模型中，经过第一预训练模型中特征提取器的特征提取以及序列生成器的特征映射处理后，生成目标模态为文本模态的文字摘要。

另外，第一模态与目标模态可以相同或不同，当第一模态与目标模态相同，即第一预训练模型为单模态训练模型，例如，第一模态和目标模态为文本模态，第一预训练模型可以根据长文本数据生成对应的文本摘要；当第一模态与目标模态不相同，即第一预训练模型为多模态训练模型，例如，第一模态为音频模态，目标模态为文本模态，第一预训练模型可以根据音频数据转换生成相应的文本数据。而除了在文本领域，第一预训练模型还可以对图像、音频或视频等领域下的数据进行特征提取，生成相应的特征表示，进而能够为目标模型进行图像识别、音频检索、视频摘要生成等任务提供基础。

在一种可能的实现方式，第二预训练模型是用于根据第二模态对应的特征提取器针对第二模态的内容提取到的特征，将第一模态与第二模态进行特征对齐的模型，第二预训练模型可以是用于进行跨模态对齐生成任务的训练模型，换句话说，第二预训练模型可以是一种用于将不同模态（例如图像、文本、音频、视频等）之间的信息进行匹配和对齐的模型，目的是在多模态数据中建立模态之间的联系，从而实现跨模态的信息传递和融合。第二预训练模型可以应用于多模态内容生成任务，例如图像描述生成、图像-文本检索、音频转录、视频摘要生成等，在多模态内容生成任务中，需要将图像、文本、音频和视频等不同模态的数据进行对齐。第二预训练模型中的特征提取器可以将输入的各个模态数据转换为共享的低维度特征表示，以便进行跨模态的比较和融合；接着，第二预训练模型中的模态对齐模块可以实现不同模态之间对齐，使得模态之间的特征表示具有相似性，如图4所示，图4是本申请实施例提供的第二预训练模型的结构示意图，第二预训练模型可以包括有用于针对各个模态进行模态嵌入的特征提取器，以第二预训练模型执行文本模态与图像模态对齐任务为例，其中，图像模态为第二模态，第二预训练模型可以包括有文本模态对应的文本特征提取器和图像模态对应的图像特征提取器，即图像特征提取器为第二模态的特征提取器，将文本摘要和视频片段输入至第二预训练模型中，首先，第二预训练模型可以对视频片段进行深度优先搜索（Depth-First Search，DFS）处理，将视频片段拆分为多个帧或者时间段，从而能够获取视频片段的关键信息，有助于视频特征提取器进行特征提取和分析。文本特征提取器可以对文本摘要进行特征提取转换为相应的文本特征表示，同时图像特征提取器可以对视频片段中的帧图像进行特征提取转换为相应的图像特征表示，接着第二预训练模型可以对图像特征表示与文本特征表示分别投影至共享的潜在空间，从而使得不同模态的特征表示能够在该空间有相似的分布，实现跨模态对齐。其中，模态对齐还可以通过共享权重、注意力机制或对抗训练等方式实现，具体地，可以通过共享部分或全部网络权重，使得不同模态的输入数据可以映射到相似的表示空间来实现模态之间的对齐；或者通过对不同模态的注意力权重进行学习来实现对齐；或者通过生成器和判别器相互对抗判断所生成的数据是否处于同一特征空间来实现模态对齐。

在一种可能的实现方式中，目标模型是用于针对第一模态的内容和第二模态的内容进行特征提取，并根据提取得到的第一模态的内容的特征和第二模态的内容的特征生成目标模态的内容的模型，目标模型可以包括有针对第一模态的第一特征提取器、针对第二模态的第二特征提取器、针对第一模态和第二模态的特征融合器，以及目标模态对应的序列生成器。其中，第一特征提取器可以针对输入至目标模型的第一模态的内容进行特征提取，转换为相应的共享特征表示，即第一模态的内容的特征，同时第二特征提取可以针对输入的第二模态的内容进行特征提取，转换为相应的共享特征表示，即第二模态的内容的特征，从而可以通过特征融合器对第一特征提取器和第二特征提取器所输出的共享特征表示进行模态融合，生成融合特征，具体地，可以将第一特征提取器提取得出的共享特征与第二特征提取器提取得到的共享特征进行拼接，然后输入至特征融合器中进行特征融合。接着利用目标模态对应的序列生成器以融合特征作为输入，生成所需的目标模态的内容。由于目标模态的内容是通过第一模态的内容和第二模态的内容之间的关系生成的，因此，在目标模型的训练过程中，需要包含有第一模态-第二模态-目标模态的三元组训练内容，通过三元组训练内容对目标模型中的第一特征提取器和第二特征提取器进行训练，以学习到各个模态之间的关联性，从而能够在给定第一模态和第二模态的内容的情况下，生成符合目标模态的内容。例如，以第一模态和目标模态为文本模态，第二模态为视频模态，目标模型执行视频标题生成任务为例子，利用<文本描述-视频片段-视频标题>三元组训练数据对目标模型进行训练，即目标模型利用视频片段和文本描述生成相应的视频标题。但在实际应用场景中，多模态的样本数据组成的训练样本一般数量稀少，且获取难度大，降低了模型的训练效率，因此，本申请实施例提供的内容生成方法通过第一预训练模型中针对第一模态的特征提取器，以及第二预训练模型中针对第二模态的特征提取器对目标模型进行初始化，结合多个不同训练任务训练得到的特征提取器对目标模型进行桥接，得到新的目标模型，可以帮助目标模型更快地收敛，高效地学习到有效的特征表示，有助于节省大量多模态的训练样本，降低目标模型对训练样本数量的依赖性，提高目标模型的训练效率。

在一种可能的实现方式中，如图5所示，图5是本申请一实施例提供的对目标模型进行初始化的流程示意图，在对目标模型进行初始化的过程中，可以是利用针对不同训练任务训练得到的特征提取器对目标模型中相应的特征提取器进行桥接，具体地，利用第一预训练模型中针对第一模态的特征提取器对目标模型中针对第一模态的第一特征提取器进行桥接，利用第二预训练模型中针对第二模态的特征提取器对目标模型中针对第二模态的第二特征提取器进行桥接，由于预训练模型中的特征提取器已经在大规模数据上进行了训练，因此可以加快目标模型中第一特征提取器和第二特征提取器的收敛速度，高效地学习到有效的特征表示，无需目标模型重新开始训练，可以减少训练样本的数量，提高目标模型的训练效率。以目标模型执行根据视频片段和文本描述生成视频标题的生成任务为例子，第一模态和目标模态均为文本模态，第二模态为图像模态，第一预训练模型为基于文本模态的内容输出文本模态的标题的模型，第一预训练模型中包括文本模态的特征提取器和相应的序列生成器，而第二预训练模型为将文本模态的内容和图像模态的内容进行跨模态对齐的模型，第二预训练模型包括文本模态的特征提取器和图像模态的特征提取器，相应地，目标模型也包括文本模态的第一特征提取器、图像模态的特征提取器、针对文本模态和图像模态的特征融合器，以及文本模态的序列生成器。将第一预训练模型中的特征提取器桥接至目标模型中的第一特征提取器，将第二预训练模型中图像模态的特征提取器桥接至目标模型中的第二特征提取器，从而完成对目标模型的初始化，进而再将视频片段的帧图像和文本描述输入至目标模型后，可以输出文本模态的视频标题。

其中，在对目标模型进行桥接的过程中，可以通过提取预训练模型中特征提取器的训练参数，并对目标模型中相应模态的特征提取器的初始参数进行冻结，然后将训练参数部分或全部覆盖更新初始参数，或者根据训练参数对初始参数进行修正；或者，将预训练模型中的特征提取器对目标模型中相应的特征提取器进行替换。由于第一预训练模型和第二预训练模型分别用于执行相应模态生成任务和跨模态对齐任务，且第一预训练模型和目标模型均用于执行目标模态的内容生成任务，因此，通过采用独立且预先训练的不同训练模型对目标模型进行初始化，能够降低目标模型对训练样本数量的需求，提高目标模型的训练效率。

在一种可能的实现方式中，通过对目标模型同时桥接不同训练任务训练得到的特征提取器，能够使得目标模型综合不同训练任务所对应的多模态信息，不仅能够促使目标模型更快地学习到不同模态之间的关联性以及在不同训练任务中所学习得到的特征表示，通过桥接跨模态对齐任务的特征编码器有助于从多模态数据中学习到更丰富的特征表示，通过桥接相应模态生成任务的特征编码器有助于从相应模态数据中学习到更专注的特征表示，从而在后续的模型训练过程中，能够提高训练数据的利用效率，减小目标模型对训练样本数量的依赖性。由于目标模型为基于第一模态和第二模态的内容生成目标模态的内容的模型，目标模型至少包括两个及以上的特征提取器，而通过同时桥接多个不同训练任务得到的特征提取器能够满足为目标模型中各个特征提取器的初始化任务，所桥接的多个特征提取器均已经过样本数据训练，无需为目标模型中的特征提取器重新进行训练；而迁移单个预训练模型的部分或全部结构，无法完全满足目标模型的初始化任务，仍然需要大量的训练样本数据对目标模型中的部分特征提取器重新训练，因此，本申请实施例提供的内容生成方法能够降低模型对训练样本数量的依赖性，提高模型的训练效率。

步骤202：获取第一模态和第二模态的第一样本内容，将第一样本内容输入至目标模型，生成目标模态的第二样本内容，基于第二样本内容对目标模型进行训练。

在一种可能的实现方式中，第一模态与第二模态不相同，第一模态的第一样本内容和第二模态的第一样本内容可以是同一个样本内容在不同模态下的表现形式，例如，第一模态的第一样本内容为一段音频所对应的文字描述内容，而第二模态的第一样本内容则为该音频片段。另外，第一模态的第一样本内容与第二模态的第一样本内容可以相关或者不相关，当第一模态和第二模态的第一样本内容相关，例如，第一模态的第一样本内容为视频的描述文本，而第二模态的第一样本内容为对应的视频片段，可以有效降低训练样本的获取难度，同时两个不同模态的相关内容可以提供互补信息，有助于目标模型发掘多个模态之间存在的语义关联，充分利用不同模态之间的关联信息，提升目标模型的性能和表现；当第一模态与第二模态的第一样本内容不相关，例如，第一模态的第一样本内容为人物A的人物介绍，而第二模态的第一样本内容可以为人物B的名字，通过输入两个模态下互不相关的训练内容至目标模型，可以引入额外的模态信息，有助于目标模型探索两个不相关的模态信息之间的隐含关系和相似性，提高目标模型的鲁棒性。

在一种可能的实现方式中，在基于第一预训练模型和第二预训练模型对目标模型进行初始化之后，目标模型引入了多个预训练模型中针对不同模态数据的特征提取能力，但由于各个预训练模型所执行的任务与目标模型所执行的生成任务并不完全相同，因此，为了使得目标模型能够适应多模态的生成任务，可以基于第一模态和第二模态的第一样本内容对目标模型进行训练，生成目标模态的第二样本内容，进而可以利用目标模型所输出的第二样本内容对目标模型进行训练，提高目标模型的泛化能力，同时对目标模型中的参数进行调整和优化，有效提升模型的生成性能，改善模型的收敛效果，进而能够使得目标模型在基于多模态的内容生成目标模态的内容时，提升目标内容的准确性。

在一种可能的实现方式，在基于第二样本内容对目标模型进行训练的过程中，可以先获取与第一样本内容所对应的目标模态的目标样本内容，通过比较目标模态的目标样本内容与第二样本内容，确定出目标模型的训练损失，进而利用训练损失对目标模型进行训练，分别调整目标模型中针对第一模态和第二模态的特征提取器的参数，以最小化训练损失，提升目标模态的目标内容的准确性。

在一种可能的实现方式，在基于第二样本内容对目标模型进行训练的过程中，可以先获取目标模态的目标样本内容，以目标模型为生成器模型，构建对应的判别器模型，判别器模型用于判断目标模型所输出的第二样本内容与目标样本内容的区别，通过最小化两者区别来训练目标模型，以提升目标模态的目标内容的准确性。

在一种可能的实现方式，在基于第二样本内容对目标模型进行训练的过程中，可以利用第二样本内容进行重新标定，以纠正可能存在的标签错误或者噪声，并用新的标签进行训练，通过标注得到更准确的标签来改善目标模型的训练效果，提升目标模态的目标内容的准确性。

在一种可能的实现方式中，当第一模态和目标模态均为文本模态，第二模态为图像模态，则在将第一样本内容输入至目标模型，生成目标模态的第二样本内容的过程中，可以将文本模态的第一样本内容和图像模态的第一样本内容输入至目标模型；其次，可以分别对文本模态的第一样本内容和图像模态的第一样本内容进行特征提取，得到文本模态对应的样本文本特征以及图像模态对应的样本图像特征；接着，将样本文本特征和样本图像特征进行融合，得到样本融合特征；然后，对样本融合特征进行特征映射，生成文本模态的第二样本内容，从而可以利用第二样本内容对目标模型进行训练，使得目标模型可以应用于摘要生成、视频检索、图像识别、自然语言处理等领域。

在一种可能的实现方式中，当第一模态和目标模态均为音频模态，第二模态为文本模态，则在将第一样本内容输入至目标模型，生成目标模态的第二样本内容的过程中，可以将音频模态的第一样本内容和文本模态的第一样本内容输入至目标模型；其次，可以分别对音频模态的第一样本内容和文本模态的第一样本内容进行特征提取，得到音频模态对应的样本音频特征以及文本模态对应的样本文本特征；接着，将样本音频特征和样本文本特征进行融合，得到样本融合特征；然后，对样本融合特征进行特征映射，生成音频模态的第二样本内容，从而能够利用第二样本内容对目标模型进行训练，以应用于语音合成等技术领域。

在一种可能的实现方式中，当第一模态和目标模态均为图像模态，第二模态为文本模态，则在将第一样本内容输入至目标模型，生成目标模态的第二样本内容的过程中，可以将图像模态的第一样本内容和文本模态的第一样本内容输入至目标模型；其次，可以分别对图像模态的第一样本内容和文本模态的第一样本内容进行特征提取，得到图像模态对应的样本图像特征以及文本模态对应的样本文本特征；接着，将样本图像特征和样本文本特征进行融合，得到样本融合特征；然后，对样本融合特征进行特征映射，生成图像模态的第二样本内容，从而能够利用第二样本内容对目标模型进行训练，以应用于图像合成等技术领域。

步骤203：获取第一模态和第二模态的待处理内容，将待处理内容输入至训练后的目标模型，生成目标模态的目标内容。

在一种可能的实现方式中，在基于第一模态和第二模态的第一样本内容对桥接得到的目标模型训练后，再将获取得到的第一模态和第二模态的待处理内容输入至训练后的目标模型中，从而能够生成更为准确的目标模态的目标内容，进而可以应用于后续的摘要生成、视频检索、图像识别、自然语言处理等领域。

如图6所示，图6是本申请实施例提供的目标模态的目标内容生成的流程示意图，目标模型用于根据视频片段和文本描述生成视频标题，其中，第一模态和目标模态均为文本模态，第二模态为图像模态，目标模型中文本模态的第一特征提取器经过第一预训练模型中文本模态的特征提取器桥接初始化，而目标模型中图像模态的第二特征提取器经过第二预训练模型中图像模态的特征提取器桥接初始化；将视频片段作为第二模态的待处理内容，对应的文本描述作为第一模态的待处理内容输入至训练后的目标模型中，在视频片段进行特征提取之前，先对视频片段进行关键帧抽取，提取出视频片段的关键帧图像，在将关键帧图像输入至第二特征提取器中进行特征提取，同时第一特征提取器对文本描述进行特征提取，然后将第一特征提取器提取得到的文本描述的特征和第二特征提取器提取得到的关键帧图像的特征输入至目标模型中的特征融合器进行特征融合得到融合特征，再利用序列生成器对融合特征进行特征映射，生成文本模态的视频标题，进而可以利用所得的视频标题进行内容推荐、视频检索、视频分类等等。

如图7所示，图7是本申请实施例提供的内容生成方法的效果示意图，第一模态和目标模态均为文本模态，第二模态为图像模态，待处理内容为一段滑雪视频和相应的文本描述“近日，95后滑雪爱好者身着汉服、脚踏雪板驰骋雪原，宛如御剑飞行，滑雪爱好者介绍，踩着软绵绵的粉雪，汉服飘飘，背后是绝美的村庄，感觉太棒了！”，将视频片段进行关键帧抽取后，得到帧图像，将帧图像和对应的文本描述输入至目标模型中，可以得到该视频片段的视频标题“好飒！95后汉服小姐姐雪上绝美驰骋”。

除了如图6所示中目标模型可以对图像模态和文本模态的内容进行处理之外，还可以输入图像模态的内容和音频模态的内容至目标模型，生成相应的文本摘要；又如，输入视频模态的内容和文本模态的内容至目标模型，生成相应的关键搜索词等等。其中，目标模型所生成的目标模态的目标内容可以与第一预训练模型相关，由于第一预训练模型用于根据第一模态的内容生成目标模态的内容，例如，第一预训练模型用于根据描述文本生成文本标题，第一模态和目标模态均为文本模态，若第二模态为音频模态，则目标模型所生成的目标内容可以是文本模态的音频标题。

在一种可能的实现方式中，目标模型可以用于执行基于多种模态的内容生成目标模态的内容的任务，其中，输入的模态种类数量可以是两个、三个或三个以上，相应地，第二模态的数量可以为多个且互不相同，第二预训练模型用于将第一模态和多个第二模态进行特征对齐，例如，第一模态可以是文本模态，多个第二模态可以包括图像模态和音频模态。当目标模型基于三个或三个以上数量的模态内容生成目标模态的内容时，可以通过桥接用于执行相应模态的内容生成任务的训练模型来对目标模型进行初始化，例如，如图8所示，图8是本申请另一实施例提供的对目标模型进行初始化的流程示意图，当目标模型用于执行基于第一模态、两个第二模态的内容生成目标模态的内容的任务，除了可以桥接第一预训练模型中第一模态的特征提取器和第二预训练模型中其中一个第二模态的特征提取器之外，还可以桥接第二预训练模型中另一个第二模态的特征提取器。

在一种可能的实现方式中，在对目标模型进行初始化的过程中，还可以基于第一预训练模型中第一模态对应的特征提取器、第一预训练模型的序列生成器、第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化。由于序列生成器是用于执行目标模态的内容生成任务，因此，可以在基于不同模态对应的特征提取器对目标模型进行初始化的基础上，增加第一预训练模型的序列生成器，对目标模型进行初始化，从而能够将第一预训练模型的基于目标模态的生成能力桥接至目标模型，使得目标模型能够在目标模态上实现快速收敛，得到基于目标模态上更为准确的特征表示，同时，由于第一预训练模型中第一模态对应的特征提取器与目标模态对应的序列生成器同步训练，拥有良好的性能和泛化能力，有助于减少训练时间和对样本的需求，提高目标模型的训练效率。

以目标模型执行视频标题生成任务为例，由于基于融合后的特征表示生成文本模态的内容属于序列到序列（Sequence to Sequence，Seq2Seq）的过程，即根据给定的融合特征序列通过特定的生成方法生成视频标题序列，其中，两个序列可以不等长，因此，在第一预训练模型和目标模型中可以采用编码器作为第一模态对应的特征提取器，采用解码器作为序列生成器，如图9所示，图9是本申请实施例提供的序列生成器的结构示意图，经过特征提取器将输入的第一样本内容压缩成指定长度的向量（x₁，x₂，x₃，x₄），即语义向量C，语义向量C可以作为输入的第一样本内容的语义，而序列生成器可以根据输出的语义向量C生成所需的序列（y₁，y₂，y₃），即解码，将语义向量C作为初始状态输入至序列生成器中，可以得到文本模态的视频标题，此时上一时刻的输出会成为当前时刻的输入，而且语义向量C仅作为初始状态参与运算，或者上一时刻的输出作为当前时刻的输入的同时，语义向量C参与各个时刻的运算。

如图10所示，图10是本申请另一实施例提供的对目标模型进行初始化的流程示意图，第一预训练模型中第一模态的特征提取器桥接至目标模型中第一模态的特征提取器，第二预训练模型中第二模态的特征提取器桥接至目标模型中第二模态的特征提取器，而第一预训练模型中目标模态的序列生成器桥接至目标模型中目标模态的序列生成器，实现对目标模型的初始化。由于第一模态的特征提取器可以从第一模态的内容中提取出潜在语义特征表示，并且该潜在语义特征表示可以保留部分语义信息，在单独桥接第一预训练模型中的特征提取器的情况下，特征提取器所提取出的潜在语义特征表示难以完全包含生成目标模态的内容的信息，容易出现信息丢失的风险，因此，通过桥接同步训练的序列生成器可以使得目标模型捕捉到该潜在语义特征表示，并将该潜在语义特征表示转化为更为全面的目标模态的内容，从而在桥接第一预训练模型的特征提取器和序列生成器之后能够共享第一预训练模型中特征提取器与序列生成器之间的映射关系，有助于保持语义一致性和相关性，提升目标模态的内容的准确性。

在一种可能的实现方式中，当第一模态与目标模态不同，通过同时桥接第一预训练模型中的特征提取器和序列生成器可以有助于实现多模态信息的整合和融合，进而能够综合利用不同模态的信息，提高目标模型的泛化能力。

在一种可能的实现方式中，在对目标模型进行初始化之前，还可以获取第一预训练模型中第一模态对应的特征提取器的目标参数，其中，目标参数为最后一个输出层的参数；然后将第一预训练模型的序列生成器中首个输入层的参数替换为目标参数。如图11示，图11是本申请实施例提供的第一预训练模型的参数共享的流程示意图。由于第一预训练模型中的特征提取器在训练过程中已经学习到第一模态的特征表示，利用特征提取器中最后一个输出层（）的参数对序列生成器中首个输入层（/>）的参数进行更新覆盖，使得特征提取器与序列生成器对齐，实现参数共享，从而序列生成器能够利用来自第一模态的特征提取器的模态特征，不仅有助于提升目标模态的目标内容的质量和准确性，而且还能够节省对序列生成器的训练资源，加快目标模型收敛，提高目标模型的训练效率。

另外，当第一模态对应的特征提取器中包括有多个输出层，第一预训练模型中的序列生成器包括多个输入层，则可以将序列生成器中各个输入层的参数对应替换为特征提取器中各个输出层的参数，具体地，可以将序列生成器中第二个输入层的参数对应替换为特征提取器中倒数第二个输出层的参数，将序列生成器中第三个输入层的参数对应替换为特征提取器中倒数第三个输出层的参数，如此类推，实现特征提取器与序列生成器的参数共享。

在一种可能的实现方式中，目标模型设置有用于将第一模态的内容的特征与第二模态的内容的特征进行融合得到融合特征的特征融合器，因此，在基于第二样本内容对目标模型进行训练的过程中，可以降低目标模型中第一模态和第二模态对应的特征提取器的学习率，提升特征融合器的学习率；然后基于第二样本内容对调整学习率后的目标模型进行训练。学习率为基于损失梯度控制目标模型的参数更新速度的超参数，能够决定每次目标模型的参数更新的步长，换句话说，学习率越小，在训练过程中参数更新的步长越小；而学习率越大，在训练过程中参数更新的步长越大。由于目标模型中第一模态和第二模态对应的特征提取器已经经过桥接初始化，相当于相应的特征提取器已经在大规模数据中进行充分训练，学习到部分特征表示，而目标模型中的特征融合器未经过桥接初始化，即特征融合器未经过训练，同时特征融合器需要根据目标模型的目标任务需求所设计的，难以选取相匹配的模型进行桥接初始化，因此，可以通过下调目标模型中第一模态和第二模态对应的特征提取器的学习率，将减缓对应的特征提取器在目标任务的训练过程中参数的更新速度，避免过快更新，保留对应的特征提取器通过预训练模型桥接所学习到的特征表示信息；而同时提升特征融合器的学习率，能够加快特征融合器在目标任务的训练过程中的参数更新速度，使得特征融合器能够更好地适应目标任务的特征分布，从而提高模型性能。在对目标模型中特征融合器和特征提取器的学习率进行调整之后，可以再利用第二样本内容对新的目标模型进行训练，对特征融合器和特征提取器各自的参数进行调整，有助于提高目标模态的目标内容的准确性。

在一种可能的实现方式中，在利用第一预训练模型中的序列生成器对目标模型进行初始化的情况下，即利用第一预训练模型中的序列生成器对目标模型中的序列生成器进行桥接，从而可以在降低目标模型中第一模态和第二模态对应的特征提取器的学习率，同步降低目标模型中序列生成器的学习率。在未利用第一预训练模型中的序列生成器对目标模型进行初始化的情况下，即未利用第一预训练模型中的序列生成器对目标模型中的序列生成器进行桥接，可以在提升特征融合器的学习率的同时提升序列生成器的学习率。

在一种可能的实现方式中，在提升特征融合器的学习率的过程中，可以先获取特征融合器的第一原始学习率；然后每当到达预设的训练步长时，根据预设的第一调整系数提升第一原始学习率，直至第一原始学习率达到预设的第一目标学习率。在对初始化后的目标模型进行训练之前，可以先获取特征融合器的第一原始学习率，第一原始学习率是指未经过提升的初始学习率，且第一原始学习率可以高于或等于目标模型中第一模态和第二模态对应的特征提取器的初始学习率，接着，通过设定训练步长，表示当训练次数达到相应的训练步长，则基于第一调整系数对特征融合器的第一原始学习率进行逐步提升，其中，第一原始学习率可以通过与第一调整系数进行相加或相乘进行提升，以逐渐接近于第一目标学习率，使得目标模型能够快速收敛。在训练过程中，通过检测第一原始学习率的变化，当第一原始学习率达到第一目标学习率，则停止提升特征融合器的第一原始学习率，使得特征融合器保持稳定。

在一种可能的实现方式中，第一调整系数可以是固定的，也可以根据各个训练步长进行调整。具体地，当第一调整系数为固定的，可以通过将第一原始学习率与第一调整系数进行相乘，或者在第一原始学习率的基础上增加第一调整系数，得到新的第一原始学习率，并根据新的第一原始学习率对特征融合器进行调整更新。当第一调整系数根据各个训练步长进行调整，第一调整系数随着训练步长的延长而增大，以提高特征融合器的学习率提升梯度，加速特征融合器的收敛速度，使得特征融合器能够更好地适应目标任务；另外，第一调整系数可以随着训练步长的延长而减小，以减缓特征融合器的学习率提升梯度，从而能够保持稳定的学习率，避免学习率的调整幅度过大，减少训练过程中的不稳定性。如图12所示，图12是本申请实施例提供的第一原始学习率调整的效果示意图，第一调整系数可以随着训练步长的延长而先增大后减小，通过设置训练步长来划分训练周期，在训练初期，通过设置较大数值的第一调整系数，使得第一原始学习率快速提升，进而使得目标模型能够快速收敛；而在训练中期，第一调整系数的数值保持稳定，使得第一原始学习率平稳递增，进而能够使得特征融合器能够不断更新，有助于学习到有效的特征表示；在训练后期，第一调整系数逐渐减小，使得第一原始学习率缓慢上升至第一目标学习率并趋于稳定状态，从而能够减缓特征融合器的更新速度，保留在训练过程中所学习到的特征表示，以提升目标模型的目标内容的准确性。

在一种可能的实现方式中，第一原始学习率可以是在构建目标模型时预先设定好的学习率，也可以是基于第一预训练模型和第二预训练模型进行设定，例如，第一预训练模型中第一模态的特征提取器以及第二预训练模型中第二模态的特征提取器均经过大规模数据训练，训练效果好，置信度较高，因此，初始化后的目标模型中第一模态和第二模态对应的特征提取器均能够保留预训练模型较好的特征表达能力，意味着可以减缓相应参数的更新速度，则第一原始学习率可以取较高的第一学习初始值；若第一预训练模型中第一模态的特征提取器以及第二预训练模型中第二模态的特征提取器仅经过小规模数据训练，训练效果差，置信度较低，意味着可以提高相应参数的更新速度，则第一原始学习率可以取较低的第二学习初始值，以保持与各个特征提取器同步更新。

在一种可能的实现方式中，在降低目标模型中第一模态和第二模态对应的特征提取器的学习率的过程中，可以先获取目标模型中第一模态和第二模态对应的特征提取器的第二原始学习率；然后每当到达训练步长时，根据预设的第二调整系数降低第二原始学习率，直至第二原始学习率达到预设的第二目标学习率；其中，在同一个训练步长中，第二原始学习率的降低幅度小于第一原始学习率的提升幅度。第二原始学习率是指目标模型中特征提取器未经过提升的初始学习率，且第二原始学习率低于或等于目标模型中特征融合器的第一初始学习率，接着，通过设定训练步长，表示当训练次数达到相应的训练步长，则基于第二调整系数对特征提取器的第二原始学习率进行逐步降低，其中，第二原始学习率可以通过与第二调整系数进行相减或相乘进行降低，以逐渐接近于第二目标学习率，使得特征提取器在训练过程中减缓更新速度，保留通过桥接预训练模型所学习到的特征表示，防止特征提取器过快偏离而丢失桥接得到的特征表示。在训练过程中，通过检测第二原始学习率的变化，当第二原始学习率达到第二目标学习率，则停止减缓特征提取器的第二原始学习率，使得特征提取器保持稳定，实现对特征提取器进行微调，保留桥接预训练模型带来的优势特征表示。

在一种可能的实现方式中，第二调整系数可以是固定的，也可以根据各个训练步长进行调整。具体地，第一调整系数和第二调整系数可以表示为第一原始学习率的提升幅度和第二原始学习率的降低幅度，第一调整系数大于第二调整系数，从而能够使得在同一个训练步长中，第二原始学习率的降低幅度小于第一原始学习率的提升幅度，保持目标模型的稳定性，其中，第一调整系数与第二调整系数可以具有相关性，参照图13，图13是本申请实施例提供的第二调整系数调整的效果示意图，如（a）所示，第一调整系数和第二调整系数可以同步增大或减小，即第一调整系数与第二调整系数成正比例关系；或者如（b）所示，随着第一调整系数不断增大而第二调整系数不断减小，随着第一调整系数不断减小而第二调整系数不断增大，即第一调整系数与第二调整系数成反比例关系，但第一调整系数始终大于第二调整系数。相应地，第二调整系数可以随着训练步长的延长而增大，使得第二原始学习率不断降低，实现固化特征提取器的参数，进而能够有效保留桥接后所学习到的特征表示；第二调整系数可以随着训练步长的延长而减小，使得第二原始学习率能够保持稳定，平缓趋近于第二目标学习率，提高特征提取器更新的平稳性。

在一种可能的实现方式中，第一模态和目标模态均为文本模态，在对目标模型进行初始化之前，还可以先对第一预训练内容进行特征提取，得到第一预训练文本特征；然后对第一预训练文本特征进行特征映射，生成文本模态的第二预训练内容；接着根据第二预训练内容对第一预训练模型进行预训练。

由于第一模态和目标模态均为文本模态，因此，第一预训练模型为文本模态的单模态训练模型，第一预训练模型中的特征提取器可以针对文本模态的内容进行特征提取，而序列生成器可以针对特征提取器输出的特征表示进行特征映射，生成文本模态的内容。第一预训练内容为第一模态的内容，即文本模态的内容，将文本模态的第一预训练内容输入至第一预训练模型中的特征提取器进行特征提取，可以得到第一预训练文本特征，然后可以利用第一预训练模型中的序列生成器对第一预训练文本特征进行特征映射，得到文本模态的第二预训练内容，进而可以基于第二预训练内容对第一预训练模型进行预训练，具体地，可以根据第二预训练内容确定出第一预训练损失，并根据第一预训练损失对第一训练模型中第一模态的特征提取器和序列生成器的参数进行调整，以降低第一预训练损失。

具体地，第一预训练模型可以是用于根据输入的长文本生成文本标题的文本标题生成模型，第一预训练模型中文本模态的特征提取器可以为文本编码器，而序列生成器可以为文本解码器，因此，通过获取文本模态的第一预训练内容如新闻报道、学术论文、宣传广告、法律文件、小说故事、博客文章、报告和商业文件等无监督文本数据来对第一预训练模型进行训练，经过第一预训练模型输出的文本模态的第二预训练内容和目标训练内容（与第一预训练内容对应的标准文本内容）进行比较，可以确定出第一预训练模型的第一预训练损失，具体地，可以通过交叉熵损失函数、对比损失函数、均方误差函数、平均绝对误差损失函数、对抗生成网络、KL散度损失函数等等来确定第一预训练损失，并且通过反向传播算法计算损失函数对第一预训练模型参数的梯度，然后使用优化算法（如随机梯度下降）根据梯度更新第一预训练模型的参数，使得第一预训练损失逐渐减小，通过多次迭代训练，不断优化第一预训练模型参数，直至第一预训练损失最小化，使得第一预训练模型的预测结果与真实值更加接近，完成对第一预训练模型的训练。

在一种可能的实现方式中，第二预训练内容的数量为多个，多个第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成，所以，在根据第二预训练内容对第一预训练模型进行预训练的过程中，可以分别确定各个第二预训练内容对应的预训练损失，对多个预训练损失进行加权，得到目标损失；然后，根据目标损失对第一预训练模型进行预训练。具体地，如图14所示，图14是本申请另一实施例提供的第一预训练模型的结构示意图，第一预训练模型可以采用用于自然语言理解和生成的统一预训练语言模型（Unified Language Model Pre-training for Natural LanguageUnderstanding and Generation，UNILM），第一预训练模型可以在针对多个类型的语言建模任务进行预训练，从而可以得到多个第二预训练内容，包括基于单向预测的特征映射（Left-to-Right LM）生成的内容、基于双向预测的特征映射（Bidirectional LM）生成的内容，以及基于序列到序列预测的特征映射（Seq-to-Seq LM）生成的内容，从而可以针对自然语言理解（Natural Language Understanding, NLU）和自然语言生成（Natural LanguageGeneration，NLG）任务进行微调。第一预训练模型在大规模文本数据上进行预训练，为三种不同类型的无监督语言建模目标使用共享的参数和架构，减轻了不同类型的训练目标的训练需求，参数共享能够针对不同的语言建模目标进行联合优化，上下文以不同的方式使用，减轻了对单个预训练任务的过度拟合，使得在不同训练目标中所学习到的文本特征表示更为通用，提高模型性能。如图14所示，输入第一预训练内容X序列（x₁，x₂，x₃，x₄，x₅），分别得到通过序列嵌入层（Token Embedding）输出的序列嵌入向量、位置嵌入层（PositionEmbedding）输出的位置嵌入向量和段嵌入层（Segment Embedding）层输出的段嵌入向量，将序列嵌入向量、位置嵌入向量和段嵌入向量进行求和，可以得到每个X序列中每个序列的上下文化向量表示。第一预训练模型可以采用多层Transformer的架构，为了区分使不同的训练任务可以共享这个网络，第一预训练模型增加掩码矩阵，从而不同的训练任务采用不同的自注意力掩码矩阵（Self-attention Mask）去调整自注意力机制的关注范围，对掩码矩阵进行运算来覆盖被编码的特征，使得不同训练任务在预测过程中只能关注到与特定任务相关的特征，实现对单向预测的特征映射任务、双向预测的特征映射向量任务和序列到序列的特征映射任务共享基于自注意力机制的神经网络模型（Transformer）的建模优化。在执行单向预测的特征映射任务中，由于当前序列仅能够从左侧获取到信息，即只关注前面的上下文信息，生成连贯性和一致性的语言序列，训练和生成速度较快，适用于短文本生成任务；在双向预测的特征映射任务中，不仅考虑前面的上下文信息，还可以同时利用后续的信息，对整个句子中的任意部分进行编码，准确把握文本的全局依赖关系，但训练时间较长，适用于较为复杂的长文本生成任务；而在序列到序列的特征映射任务中，能够有效捕捉到输入序列的上下文信息，同时生成相对应的输出序列，适用于挖掘输入序列与输出序列之间的映射关系，因此，分别确定各个第二预训练内容对应的预训练损失，对多个预训练损失进行加权，得到目标损失，然后根据目标损失对第一预训练模型进行预训练，有效改善第一预训练模型中特征提取器的性能，进而能够改善桥接初始化后的目标模型的性能。

其中，各个第二预训练内容对应的权重可以根据各个相应的预训练损失或者训练任务偏向重新进行分配，例如，当单向预测的特征映射任务所对应的预训练损失最小，则可以单独提高单向预测的特征映射任务所对应的权重，说明单向预测的特征映射任务的训练效果最好，提高相应权重，以突出单向预测的特征映射任务的特点，降低后续生成的第二预训练样本的预训练损失；或者，当双向预测的特征映射任务所对应的预训练损失最大，说明双向预测的特征映射任务的训练效果最差，为了平衡各个训练任务的训练效果，可以提高双向预测的特征映射任务对应的权重，以突出后续双向预测的特征映射任务的训练效果；或者，当目标模型偏向于挖掘输入序列与输出序列之间的映射关系，即偏向于序列到序列的特征映射任务，从而可以提高序列到序列的特征映射任务对应的权重，以突出序列到序列的特征映射任务的训练特点。

在一种可能的实现方式中，第一模态为文本模态，第二模态为图像模态，因此，在对目标模型进行初始化之前，可以先初始化第二预训练模型，获取文本模态的第三预训练内容以及图像模态的第四预训练内容，将第三预训练内容和第四预训练内容输入至第二预训练模型；然后对第三预训练内容进行特征提取，得到第二预训练文本特征；并对第四预训练内容进行特征提取，得到预训练图像特征；接着，确定第二预训练文本特征与预训练图像特征之间的特征距离，根据特征距离对第二预训练模型进行预训练。其中，第三预训练内容可以是通过音频片段转换生成的文字模态的内容。第二预训练模型的初始化可以采用均匀分布或者正态分布中随机选取模型的参数初始值，或者引入额外的预训练模型对第二预训练模型进行桥接初始化，或者将第二预训练模型的参数初始值设置为零。如图15所示，图15是本申请实施例提供的第二预训练模型预训练的流程示意图，第二预训练模型中文本模态对应的特征提取器可以对文本模态的第三预训练内容进行特征提取，得到第二预训练文本特征，并且第二预训练模型中图像模态对应的特征提取器可以对图像模态的第四预训练内容进行特征提取，得到预训练图像特征。由于不同模态的数据（如文本和图像）具有不同的表示方式和特征空间，通过确定第二预训练文本特征与预训练图像特征之间的特征距离，量化文本模态特征和图像模态特征之间的相似性，用于评估第二预训练模型在跨模态对齐任务上的表现，其中，特征距离可以通过计算两个特征之间的余弦距离、欧式距离、杰卡德距离等进行表示。通过以最小化特征距离为训练目标，对第二预训练模型进行优化和调整，提高所输出的文化模态特征和图像模态特征均能够映射至同一潜在特征空间，即文本模态与图像模态实现对齐。

在一种可能的实现方式中，第一模态为图像模态，第二模态为音频模态，在对目标模型进行初始化之前，可以先初始化第二预训练模型，获取图像模态的第五预训练内容以及音频模态的第六预训练内容，将第五预训练内容和第六预训练内容输入至第二预训练模型；然后对第五预训练内容进行特征提取，得到预训练图像特征；并对第六预训练内容进行特征提取，得到预训练音频特征；接着，确定预训练图像特征与预训练音频特征之间的特征距离，根据特征距离对第二预训练模型进行预训练。

在一种可能的实现方式中，第一模态为文本模态，第二模态为图像模态，因此，在对目标模型进行初始化之前，还可以先初始化第二预训练模型，获取文本模态的第三预训练内容以及图像模态的第四预训练内容，将第三预训练内容和第四预训练内容输入至第二预训练模型；其次，对第三预训练内容进行特征提取，得到第二预训练文本特征；接着，对第四预训练内容进行特征提取，得到预训练图像特征；将第二预训练文本特征与预训练图像特征进行融合，得到预训练融合特征；然后，对预训练融合特征进行分类，得到分类结果，并根据分类结果对第二预训练模型进行预训练。分类结果用于指示预训练融合特征属于文本特征或者图像特征中的任意一种，或者不属于文本特征或者图像特征中的任意一种。如图16所示，图16是本申请实施例提供的第二预训练模型预训练的流程示意图，在利用第二预训练模型对文本模态的第三预训练内容和图像模态的第四预训练内容进行特征提取后，得到第二预训练文本特征和预训练图像特征。将第二预训练文本特征与预训练图像特征进行拼接融合，得到预训练融合特征，接着对预训练融合特征进行分类判断，判断预训练融合特征是否为文本特征或者图像特征中的任意一种，若是，则可以认为该预训练融合特征为对齐特征，已实现文本模态与图像模态的跨模态对齐，否则，则认为该预训练融合特征为未对齐特征，文本模态与图像模态未对齐，仍需对第二预训练模型进行调整。通过结合多个预训练融合特征的分类结果对第二预训练模型进行综合的预训练，以使输出的分类结果偏向于预训练融合特征为文本特征或者图像特征中的任意一种，提高对齐特征的输出占比，改善第二预训练模型性能。具体地，可以通过训练一个分类器来划分文本特征与图像特征之间的决策边界，利用包含有文本样本和图像样本的标签数据集对分类器（支持向量机、随机森林模型或神经网络模型）进行训练，然后将预训练融合特征输入至训练后的分类器，根据分类器的输出结果确定出分类结果，即判断预训练融合特征是否为文本特征或者图像特征中的任意一种。

在一种可能的实现方式中，第一模态为图像模态，第二模态为音频模态，在对目标模型进行初始化之前，可以先初始化第二预训练模型，获取图像模态的第五预训练内容以及音频模态的第六预训练内容，将第五预训练内容和第六预训练内容输入至第二预训练模型；然后对第五预训练内容进行特征提取，得到预训练图像特征；并对第六预训练内容进行特征提取，得到预训练音频特征；将预训练图像特征与预训练音频特征进行融合，得到预训练融合特征；然后，对预训练融合特征进行分类，得到分类结果，并根据分类结果对第二预训练模型进行预训练。

参照图17，图17为本申请实施例提供的模型生成方法的一种可选的流程示意图，该内容生成方法可以由终端执行，或者也可以由服务器执行，或者也可以由终端和服务器配合执行，在本申请实施例中，以该方法由服务器执行为例进行说明，该模型生成方法包括但不限于以下步骤1701至步骤1702。

步骤1701：基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化。

其中，第一预训练模型用于根据第一模态对应的特征提取器提取到的第一模态的内容的特征生成目标模态的内容，第二预训练模型用于根据第二模态对应的特征提取器提取到的第二模态的内容的特征，将第一模态与第二模态进行特征对齐，目标模型用于提取第一模态的内容的特征和第二模态的内容的特征，并根据第一模态的内容的特征和第二模态的内容的特征生成目标模态的内容；

步骤1702：获取第一模态和第二模态的第一样本内容，将第一样本内容输入至目标模型，生成目标模态的第二样本内容，基于第二样本内容对目标模型进行训练。

在一种可能的实现方式中，在对目标模型进行初始化的过程中，还可以基于第一预训练模型中第一模态对应的特征提取器、第一预训练模型的序列生成器、第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化；

其中，第一预训练模型的序列生成器用于对第一模态的内容的特征进行特征映射，生成目标模态的内容；

目标模型的序列生成器用于对融合特征进行特征映射，生成目标模态的内容，其中，融合特征由第一模态的内容的特征与第二模态的内容的特征融合得到。

在一种可能的实现方式中，目标模型还设置有特征融合器，特征融合器用于将第一模态的内容的特征与第二模态的内容的特征进行融合，得到融合特征。

在一种可能的实现方式中，在对目标模型进行初始化之前，还可以获取第一预训练模型中第一模态对应的特征提取器的目标参数，其中，目标参数为最后一个输出层的参数；然后将第一预训练模型的序列生成器中首个输入层的参数替换为目标参数。

在一种可能的实现方式中，目标模型设置有用于将第一模态的内容的特征与第二模态的内容的特征进行融合得到融合特征的特征融合器，因此，在基于第二样本内容对目标模型进行训练的过程中，可以降低目标模型中第一模态和第二模态对应的特征提取器的学习率，提升特征融合器的学习率；然后基于第二样本内容对调整学习率后的目标模型进行训练。

在一种可能的实现方式中，在提升特征融合器的学习率的过程中，可以先获取特征融合器的第一原始学习率；然后每当到达预设的训练步长时，根据预设的第一调整系数提升第一原始学习率，直至第一原始学习率达到预设的第一目标学习率。

在一种可能的实现方式中，在降低目标模型中第一模态和第二模态对应的特征提取器的学习率的过程中，可以先获取目标模型中第一模态和第二模态对应的特征提取器的第二原始学习率；然后每当到达训练步长时，根据预设的第二调整系数降低第二原始学习率，直至第二原始学习率达到预设的第二目标学习率；其中，在同一个训练步长中，第二原始学习率的降低幅度小于第一原始学习率的提升幅度。

在一种可能的实现方式中，第二预训练内容的数量为多个，多个第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成，所以，在根据第二预训练内容对第一预训练模型进行预训练的过程中，可以分别确定各个第二预训练内容对应的预训练损失，对多个预训练损失进行加权，得到目标损失；然后，根据目标损失对第一预训练模型进行预训练。

在一种可能的实现方式中，第一模态为文本模态，第二模态为图像模态，因此，在对目标模型进行初始化之前，可以先初始化第二预训练模型，获取文本模态的第三预训练内容以及图像模态的第四预训练内容，将第三预训练内容和第四预训练内容输入至第二预训练模型；然后对第三预训练内容进行特征提取，得到第二预训练文本特征；并对第四预训练内容进行特征提取，得到预训练图像特征；接着，确定第二预训练文本特征与预训练图像特征之间的特征距离，根据特征距离对第二预训练模型进行预训练。

在一种可能的实现方式中，第一模态为文本模态，第二模态为图像模态，因此，在对目标模型进行初始化之前，还可以先初始化第二预训练模型，获取文本模态的第三预训练内容以及图像模态的第四预训练内容，将第三预训练内容和第四预训练内容输入至第二预训练模型；其次，对第三预训练内容进行特征提取，得到第二预训练文本特征；接着，对第四预训练内容进行特征提取，得到预训练图像特征；将第二预训练文本特征与预训练图像特征进行融合，得到预训练融合特征；然后，对预训练融合特征进行分类，得到分类结果，并根据分类结果对第二预训练模型进行预训练。其中，分类结果用于指示预训练融合特征属于文本特征或者图像特征中的任意一种，或者不属于文本特征或者图像特征中的任意一种。

在一种可能的实现方式中，当第一模态和目标模态均为文本模态，第二模态为图像模态，则在将第一样本内容输入至目标模型，生成目标模态的第二样本内容的过程中，可以将文本模态的第一样本内容和图像模态的第一样本内容输入至目标模型；其次，可以分别对文本模态的第一样本内容和图像模态的第一样本内容进行特征提取，得到文本模态对应的样本文本特征以及图像模态对应的样本图像特征；接着，将样本文本特征和样本图像特征进行融合，得到样本融合特征；然后，对样本融合特征进行特征映射，生成文本模态的第二样本内容。

下面详细说明本申请实施例提供的内容生成方法。

参照图18，图18为本申请实施例提供的内容生成方法的一种可选的整体流程示意图，其中，该内容生成方法包括但不限于以下步骤1801至步骤1807：

步骤1801：基于第一预训练模型中第一模态对应的特征提取器、第一预训练模型的序列生成器、第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化。

在本步骤中，第一预训练模型用于根据第一模态对应的特征提取器提取到的第一模态的内容的特征生成目标模态的内容，第二预训练模型用于根据第二模态对应的特征提取器提取到的第二模态的内容的特征，将第一模态与第二模态进行特征对齐，目标模型用于提取第一模态的内容的特征和第二模态的内容的特征，并根据第一模态的内容的特征和第二模态的内容的特征生成目标模态的内容，同时，第一预训练模型的序列生成器用于对第一模态的内容的特征进行特征映射，生成目标模态的内容；目标模型的序列生成器用于对融合特征进行特征映射，生成目标模态的内容，其中，融合特征由第一模态的内容的特征与第二模态的内容的特征融合得到。

另外，在本步骤之前，可以先获取第一预训练模型中第一模态对应的特征提取器的目标参数，其中，目标参数为最后一个输出层的参数；然后将第一预训练模型的序列生成器中首个输入层的参数替换为目标参数。

步骤1802：获取第一模态和第二模态的第一样本内容。

步骤1803：将第一样本内容输入至目标模型，生成目标模态的第二样本内容。

步骤1804：降低目标模型中第一模态和第二模态对应的特征提取器的学习率，提升特征融合器的学习率。

在本步骤中，针对提升特征融合器的学习率，可以首先获取特征融合器的第一原始学习率；然后每当到达预设的训练步长时，根据预设的第一调整系数提升第一原始学习率，直至第一原始学习率达到预设的第一目标学习率。而针对降低特征提取器的学习率，可以首先获取目标模型中第一模态和第二模态对应的特征提取器的第二原始学习率；然后每当到达训练步长时，根据预设的第二调整系数降低第二原始学习率，直至第二原始学习率达到预设的第二目标学习率；其中，在同一个训练步长中，第二原始学习率的降低幅度小于第一原始学习率的提升幅度。

步骤1805：基于第二样本内容对调整学习率后的目标模型进行训练。

步骤1806：获取第一模态和第二模态的待处理内容。

步骤1807：将待处理内容输入至训练后的目标模型，生成目标模态的目标内容。

下面以第一模态和目标模态为文本模态，第二模态为图像模态为例子说明本申请实施例提供的内容生成方法的处理流程。

参照图19，图19为本申请实施例提供的内容生成方法的一种可选的整体流程示意图，其中，该内容生成方法包括但不限于以下步骤1901至步骤1921：

步骤1901：初始化第一预训练模型。

步骤1902：获取文本模态的第一预训练内容，将第一预训练内容输入至第一预训练模型。

步骤1903：对第一预训练内容进行特征提取，得到第一预训练文本特征。

步骤1904：对第一预训练文本特征进行特征映射，生成文本模态的第二预训练内容。

步骤1905：分别确定各个第二预训练内容对应的预训练损失，对多个预训练损失进行加权，得到目标损失。

在本步骤中，第二预训练内容的数量为多个，多个第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成。

步骤1906：根据目标损失对第一预训练模型进行预训练。

步骤1907：初始化第二预训练模型。

步骤1908：获取文本模态的第三预训练内容以及图像模态的第四预训练内容，将第三预训练内容和第四预训练内容输入至第二预训练模型。

步骤1909：对第三预训练内容进行特征提取，得到第二预训练文本特征。

步骤1910：对第四预训练内容进行特征提取，得到预训练图像特征。

步骤1911：确定第二预训练文本特征与预训练图像特征之间的特征距离，根据特征距离对第二预训练模型进行预训练。

步骤1912：基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化。

步骤1913：获取第一模态和第二模态的第一样本内容。

步骤1914：将文本模态的第一样本内容和图像模态的第一样本内容输入至目标模型。

步骤1915：分别对文本模态的第一样本内容和图像模态的第一样本内容进行特征提取，得到文本模态对应的样本文本特征以及图像模态对应的样本图像特征。

步骤1916：将样本文本特征和样本图像特征进行融合，得到样本融合特征。

步骤1917：对样本融合特征进行特征映射，生成文本模态的第二样本内容。

步骤1918：降低目标模型中第一模态和第二模态对应的特征提取器的学习率，提升特征融合器的学习率。

步骤1919：基于第二样本内容对调整学习率后的目标模型进行训练。

步骤1920：获取第一模态和第二模态的待处理内容。

步骤1921：将待处理内容输入至训练后的目标模型，生成目标模态的目标内容。

下面详细说明本申请实施例提供的模型训练方法。

参照图20，图20为本申请实施例提供的模型训练方法的一种可选的整体流程示意图，其中，该内容生成方法包括但不限于以下步骤2001至步骤2005：

步骤2001：基于第一预训练模型中第一模态对应的特征提取器、第一预训练模型的序列生成器、第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化。

在本步骤中，第一预训练模型用于根据第一模态对应的特征提取器提取到的第一模态的内容的特征生成目标模态的内容，第二预训练模型用于根据第二模态对应的特征提取器提取到的第二模态的内容的特征，将第一模态与第二模态进行特征对齐，目标模型用于提取第一模态的内容的特征和第二模态的内容的特征，并根据第一模态的内容的特征和第二模态的内容的特征生成目标模态的内容，同时，第一预训练模型的序列生成器用于对第一模态对应的特征提取器提取到的第一模态的内容的特征进行特征映射，生成目标模态的内容；目标模型的序列生成器用于对由第一模态的内容的特征与第二模态的内容的特征融合得到的特征进行特征映射，生成目标模态的内容。

步骤2002：获取第一模态和第二模态的第一样本内容。

步骤2003：将第一样本内容输入至目标模型，生成目标模态的第二样本内容。

步骤2004：降低目标模型中第一模态和第二模态对应的特征提取器的学习率，提升特征融合器的学习率。

步骤2005：基于第二样本内容对调整学习率后的目标模型进行训练。

下面以第一模态和目标模态为文本模态，第二模态为图像模态为例子说明本申请实施例提供的模型训练方法的处理流程。

参照图21，图21为本申请实施例提供的模型训练方法的一种可选的整体流程示意图，其中，该内容生成方法包括但不限于以下步骤2101至步骤2121：

步骤2101：初始化第一预训练模型。

步骤2102：获取文本模态的第一预训练内容，将第一预训练内容输入至第一预训练模型。

步骤2103：对第一预训练内容进行特征提取，得到第一预训练文本特征。

步骤2104：对第一预训练文本特征进行特征映射，生成文本模态的第二预训练内容。

步骤2105：分别确定各个第二预训练内容对应的预训练损失，对多个预训练损失进行加权，得到目标损失。

步骤2106：根据目标损失对第一预训练模型进行预训练。

步骤2107：初始化第二预训练模型。

步骤2108：获取文本模态的第三预训练内容以及图像模态的第四预训练内容，将第三预训练内容和第四预训练内容输入至第二预训练模型。

步骤2109：对第三预训练内容进行特征提取，得到第二预训练文本特征。

步骤2110：对第四预训练内容进行特征提取，得到预训练图像特征。

步骤2111：将第二预训练文本特征与预训练图像特征进行融合，得到预训练融合特征。

步骤2112：对预训练融合特征进行分类，得到分类结果。

在本步骤中，分类结果用于指示预训练融合特征属于文本特征或者图像特征中的任意一种，或者不属于文本特征或者图像特征中的任意一种。

步骤2113：根据分类结果对第二预训练模型进行预训练。

步骤2114：基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化。

步骤2115：获取第一模态和第二模态的第一样本内容。

步骤2116：将文本模态的第一样本内容和图像模态的第一样本内容输入至目标模型。

步骤2117：分别对文本模态的第一样本内容和图像模态的第一样本内容进行特征提取，得到文本模态对应的样本文本特征以及图像模态对应的样本图像特征。

步骤2118：将样本文本特征和样本图像特征进行融合，得到样本融合特征。

步骤2119：对样本融合特征进行特征映射，生成文本模态的第二样本内容。

步骤2120：降低目标模型中第一模态和第二模态对应的特征提取器的学习率，提升特征融合器的学习率。

步骤2121：基于第二样本内容对调整学习率后的目标模型进行训练。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图22，图22为本申请实施例提供的内容生成装置2200的一种可选的结构示意图，该内容生成装置2200包括：

第一处理模块2201，基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，其中，第一预训练模型用于根据第一模态对应的特征提取器提取到的第一模态的内容的特征生成目标模态的内容，第二预训练模型用于根据第二模态对应的特征提取器提取到的第二模态的内容的特征，将第一模态与第二模态进行特征对齐，目标模型用于提取第一模态的内容的特征和第二模态的内容的特征，并根据第一模态的内容的特征和第二模态的内容的特征生成目标模态的内容；

第二处理模块2202，用于获取第一模态和第二模态的第一样本内容，将第一样本内容输入至目标模型，生成目标模态的第二样本内容，基于第二样本内容对目标模型进行训练；

第三处理模块2203，用于获取第一模态和第二模态的待处理内容，将待处理内容输入至训练后的目标模型，生成目标模态的目标内容。

在一种可能的实现方式中，第一处理模块2201还用于：

基于第一预训练模型中第一模态对应的特征提取器、第一预训练模型的序列生成器、第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化；

第一预训练模型的序列生成器用于对第一模态的内容的特征进行特征映射，生成目标模态的内容；

在一种可能的实现方式中，第一处理模块2201还用于：

获取第一预训练模型中第一模态对应的特征提取器的目标参数，其中，目标参数为最后一个输出层的参数；

将第一预训练模型的序列生成器中首个输入层的参数替换为目标参数。

在一种可能的实现方式中，目标模型设置有用于将第一模态的内容的特征与第二模态的内容的特征进行融合的特征融合器，第二处理模块2202还用于：

降低目标模型中第一模态和第二模态对应的特征提取器的学习率，提升特征融合器的学习率；

基于第二样本内容对调整学习率后的目标模型进行训练。

在一种可能的实现方式中，第二处理模块2202还用于：

获取特征融合器的第一原始学习率；

每当到达预设的训练步长时，根据预设的第一调整系数提升第一原始学习率，直至第一原始学习率达到预设的第一目标学习率。

在一种可能的实现方式中，第二处理模块2202还用于：

获取目标模型中第一模态和第二模态对应的特征提取器的第二原始学习率；

每当到达训练步长时，根据预设的第二调整系数降低第二原始学习率，直至第二原始学习率达到预设的第二目标学习率；

其中，在同一个训练步长中，第二原始学习率的降低幅度小于第一原始学习率的提升幅度。

在一种可能的实现方式中，第一模态和目标模态均为文本模态，第一处理模块2201还用于：

初始化第一预训练模型，获取文本模态的第一预训练内容，将第一预训练内容输入至第一预训练模型；

对第一预训练内容进行特征提取，得到第一预训练文本特征；

对第一预训练文本特征进行特征映射，生成文本模态的第二预训练内容；

根据第二预训练内容对第一预训练模型进行预训练。

在一种可能的实现方式中，第二预训练内容的数量为多个，多个第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成，第一处理模块2201还用于：

分别确定各个第二预训练内容对应的预训练损失，对多个预训练损失进行加权，得到目标损失；

根据目标损失对第一预训练模型进行预训练。

在一种可能的实现方式中，第一模态为文本模态，第二模态为图像模态，第一处理模块2201还用于：

初始化第二预训练模型，获取文本模态的第三预训练内容以及图像模态的第四预训练内容，将第三预训练内容和第四预训练内容输入至第二预训练模型；

对第三预训练内容进行特征提取，得到第二预训练文本特征；

对第四预训练内容进行特征提取，得到预训练图像特征；

确定第二预训练文本特征与预训练图像特征之间的特征距离，根据特征距离对第二预训练模型进行预训练。

对第四预训练内容进行特征提取，得到预训练图像特征；

将第二预训练文本特征与预训练图像特征进行融合，得到预训练融合特征；

对预训练融合特征进行分类，得到分类结果，其中，分类结果用于指示预训练融合特征属于文本特征或者图像特征中的任意一种，或者不属于文本特征或者图像特征中的任意一种；

根据分类结果对第二预训练模型进行预训练。

上述内容生成装置2200与内容生成方法基于相同的发明构思，通过第一预训练模型中针对第一模态的特征提取器，以及第二预训练模型中针对第二模态的特征提取器对目标模型进行初始化，能够结合多个不同训练任务训练得到的特征提取器对目标模型进行桥接，可以帮助目标模型更快地收敛，高效地学习到有效的特征表示，有助于节省大量多模态的训练样本，降低目标模型对训练样本数量的依赖性，提高目标模型的训练效率，同时，由于第一预训练模型和第二预训练模型分别用于执行相应模态生成任务和跨模态对齐任务，且第一预训练模型和目标模型均用于执行目标模态的内容生成任务，因此，在基于第一模态和第二模态的第一样本内容对桥接得到的目标模型进行训练后，能够使得目标模型在基于多模态的内容生成目标模态的内容时，有效地提升生成性能，提升目标内容的准确性。

参照图23，图23为本申请实施例提供的模型训练装置2300的一种可选的结构示意图，该模型训练装置2300包括：

第四处理模块2301，用于基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，其中，第一预训练模型用于根据第一模态对应的特征提取器提取到的第一模态的内容的特征生成目标模态的内容，第二预训练模型用于根据第二模态对应的特征提取器提取到的第二模态的内容的特征，将第一模态与第二模态进行特征对齐，目标模型用于提取第一模态的内容的特征和第二模态的内容的特征，并根据第一模态的内容的特征和第二模态的内容的特征生成目标模态的内容；

第五处理模块2302，用于获取第一模态和第二模态的第一样本内容，将第一样本内容输入至目标模型，生成目标模态的第二样本内容，基于第二样本内容对目标模型进行训练。

在一种可能的实现方式中，第四处理模块2301还用于：

在一种可能的实现方式中，目标模型设置有用于将第一模态的内容的特征与第二模态的内容的特征进行融合的特征融合器，第五处理模块2302还用于：

基于第二样本内容对调整学习率后的目标模型进行训练。

在一种可能的实现方式中，第五处理模块2302还用于：

获取特征融合器的第一原始学习率；

在一种可能的实现方式中，第五处理模块2302还用于：

在一种可能的实现方式中，第一模态和目标模态均为文本模态，第四处理模块2301还用于：

根据第二预训练内容对第一预训练模型进行预训练。

在一种可能的实现方式中，第二预训练内容的数量为多个，多个第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成，第四处理模块2301还用于：

根据目标损失对第一预训练模型进行预训练。

在一种可能的实现方式中，第一模态为文本模态，第二模态为图像模态，第四处理模块2301还用于：

对第四预训练内容进行特征提取，得到预训练图像特征；

根据分类结果对第二预训练模型进行预训练。

上述模型训练装置2300与模型训练方法基于相同的发明构思，通过第一预训练模型中针对第一模态的特征提取器，以及第二预训练模型中针对第二模态的特征提取器对目标模型进行初始化，能够结合多个不同训练任务训练得到的特征提取器对目标模型进行桥接，可以帮助目标模型更快地收敛，高效地学习到有效的特征表示，有助于节省大量多模态的训练样本，降低目标模型对训练样本数量的依赖性，提高目标模型的训练效率，同时，由于第一预训练模型和第二预训练模型分别用于执行相应模态生成任务和跨模态对齐任务，且第一预训练模型和目标模型均用于执行目标模态的内容生成任务，因此，在基于第一模态和第二模态的第一样本内容对桥接得到的目标模型进行训练后，能够使得目标模型在基于多模态的内容生成目标模态的内容时，有效地提升生成性能，提升目标内容的准确性。

本申请实施例提供的用于执行上述内容生成方法或者模型训练方法的电子设备可以是终端，参照图24，图24为本申请实施例提供的终端的部分结构框图，该终端包括：摄像头组件2410、第一存储器2420、输入单元2430、显示单元2440、传感器2450、音频电路2460、无线保真(wireless fidelity，简称WiFi)模块2470、第一处理器2480、以及电源2490等部件。本领域技术人员可以理解，图24中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

摄像头组件2410可用于采集图像或视频。可选地，摄像头组件2410包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。

第一存储器2420可用于存储软件程序以及模块，第一处理器2480通过运行存储在第一存储器2420的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。

输入单元2430可用于接收输入的数字或字符信息，以及产生与终端的设置以及功能控制有关的键信号输入。具体地，输入单元2430可包括触摸面板2431以及其他输入装置2432。

显示单元2440可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元2440可包括显示面板2441。

音频电路2460、扬声器2461，传声器2462可提供音频接口。

电源2490可以是交流电、直流电、一次性电池或可充电电池。

传感器2450的数量可以为一个或者多个，该一个或多个传感器2450包括但不限于：加速度传感器、陀螺仪传感器、压力传感器、光学传感器等等。其中：

加速度传感器可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器可以用于检测重力加速度在三个坐标轴上的分量。第一处理器2480可以根据加速度传感器采集的重力加速度信号，控制显示单元2440以横向视图或纵向视图进行用户界面的显示。加速度传感器还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器可以检测终端的机体方向及转动角度，陀螺仪传感器可以与加速度传感器协同采集用户对终端的3D动作。第一处理器2480根据陀螺仪传感器采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器可以设置在终端的侧边框和/或显示单元2440的下层。当压力传感器设置在终端的侧边框时，可以检测用户对终端的握持信号，由第一处理器2480根据压力传感器采集的握持信号进行左右手识别或快捷操作。当压力传感器设置在显示单元2440的下层时，由第一处理器2480根据用户对显示单元2440的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器用于采集环境光强度。在一个实施例中，第一处理器2480可以根据光学传感器采集的环境光强度，控制显示单元2440的显示亮度。具体地，当环境光强度较高时，调高显示单元2440的显示亮度；当环境光强度较低时，调低显示单元2440的显示亮度。在另一个实施例中，第一处理器2480还可以根据光学传感器采集的环境光强度，动态调整摄像头组件2410的拍摄参数。

在本实施例中，该终端所包括的第一处理器2480可以执行前面实施例的内容生成方法或者模型训练方法。

本申请实施例提供的用于执行上述内容生成方法或者模型训练方法的电子设备也可以是服务器，参照图25，图25为本申请实施例提供的服务器的部分结构框图，服务器2500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上第二处理器2522和第二存储器2532，一个或一个以上存储应用程序2542或数据2544的存储介质2530(例如一个或一个以上海量存储装置)。其中，第二存储器2532和存储介质2530可以是短暂存储或持久存储。存储在存储介质2530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器2500中的一系列指令操作。更进一步地，第二处理器2522可以设置为与存储介质2530通信，在服务器2500上执行存储介质2530中的一系列指令操作。

服务器2500还可以包括一个或一个以上电源2526，一个或一个以上有线或无线网络接口2550，一个或一个以上输入输出接口2558，和/或，一个或一个以上操作系统2541，例如Windows ServerTM，Mac OS XTM，UnixTM ，LinuxTM，FreeBSDTM等等。

服务器2500中的第二处理器2522可以用于执行内容生成方法或者模型训练方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述各个实施例的内容生成方法或者模型训练方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的内容生成方法或者模型训练方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便描述本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应了解，在本申请实施例的描述中，多个（或多项）的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本申请实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

1.一种内容生成方法，其特征在于，包括：

2.根据权利要求1所述的内容生成方法，其特征在于，所述基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化，包括：

3.根据权利要求2所述的内容生成方法，其特征在于：

所述目标模型还设置有特征融合器，所述特征融合器用于将所述第一模态的内容的特征与所述第二模态的内容的特征进行融合，得到所述融合特征。

4.根据权利要求2所述的内容生成方法，其特征在于，所述基于第一预训练模型中第一模态对应的特征提取器、所述第一预训练模型的序列生成器、第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化之前，所述内容生成方法还包括：

5.根据权利要求1所述的内容生成方法，其特征在于，所述目标模型设置有用于将所述第一模态的内容的特征与所述第二模态的内容的特征进行融合的特征融合器，所述基于所述第二样本内容对所述目标模型进行训练，包括：

6.根据权利要求5所述的内容生成方法，其特征在于，所述提升所述特征融合器的学习率，包括：

获取所述特征融合器的第一原始学习率；

7.根据权利要求6所述的内容生成方法，其特征在于，所述降低所述目标模型中所述第一模态和所述第二模态对应的特征提取器的学习率，包括：

8.根据权利要求1所述的内容生成方法，其特征在于，所述第一模态和所述目标模态均为文本模态，所述基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化之前，所述内容生成方法还包括：

9.根据权利要求8所述的内容生成方法，其特征在于，所述第二预训练内容的数量为多个，多个所述第二预训练内容分别基于单向预测的特征映射、双向预测的特征映射以及序列到序列的特征映射生成，所述根据所述第二预训练内容对所述第一预训练模型进行预训练，包括：

根据所述目标损失对所述第一预训练模型进行预训练。

10.根据权利要求1所述的内容生成方法，其特征在于，所述第一模态为文本模态，所述第二模态为图像模态，所述基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化之前，所述内容生成方法还包括：

11.根据权利要求1所述的内容生成方法，其特征在于，所述第一模态为文本模态，所述第二模态为图像模态，所述基于第一预训练模型中第一模态对应的特征提取器，以及第二预训练模型中第二模态对应的特征提取器，对目标模型进行初始化之前，所述内容生成方法还包括：

根据所述分类结果对所述第二预训练模型进行预训练。

12.一种模型训练方法，其特征在于，包括：

13.一种内容生成装置，其特征在于，包括：

14.一种模型训练装置，其特征在于，包括：

15.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的内容生成方法或权利要求12所述的模型训练方法。

16.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的内容生成方法或权利要求12所述的模型训练方法。