CN114298121A

CN114298121A - 基于多模态的文本生成方法、模型训练方法和装置

Info

Publication number: CN114298121A
Application number: CN202111177650.XA
Authority: CN
Inventors: 田植良; 闭玮; 史树明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-04-08

Abstract

本申请提供了一种基于多模态的文本生成方法、模型训练方法和装置，涉及人工智能技术领域，方法包括：获取混合样本数据集；混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料；分别基于携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练，得到目标预训练模型。基于上述技术方案能够有效提高预训练模型的模型效果，以及后续的模型正式训练效果，进而提高生成文本与输入信息的匹配性。

Description

基于多模态的文本生成方法、模型训练方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于多模态的文本生成方法、模型训练方法和装置。

背景技术

随人工智能技术的发展，智能文本生成模型被应用于人机对话和图像内容描述等场景，提高了人们工作、学习和生活的便利性。在智能文本生成模型正式训练之前，通常会对一个初始模型的进行参数调整的预训练，从而提高正式训练的效果。目前通常采用单模态的训练数据对初始模型进行预训练，如基于文本数据进行预训练或基于图像数据进行预训练，然而对得到的预训练模型进行多模态数据训练所得到的模型准确率和精确率较差，在执行多模态下游任务时，得到的文本与输入信息的匹配性较差。因此，需要提供一种改进方案，以解决上述问题。

发明内容

本申请提供了一种基于多模态的文本生成方法、模型训练方法和装置，可以有效提高预训练模型和对应的文本生成模型的模型效果，提高生成文本的准确性。

一方面，本申请提供了一种基于多模态的文本生成模型训练方法，所述方法包括：

获取混合样本数据集；所述混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料；

分别基于所述携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像和所述上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练，得到目标预训练模型。

另一方面，提供了一种基于多模态的文本生成方法，所述方法包括：

获取输入文本和对应的输入图像；

调用目标文本生成模型分别对所述输入文本和所述输入图像进行特征提取，得到输入文本特征和输入图像特征；

调用所述目标文本生成模型对所述输入文本特征和所述输入图像特征进行文本生成处理，得到与所述输入文本和所述输入图像对应的目标输出文本；

其中，所述目标文本生成模型为对目标预训练模型进行微调训练得到的模型；所述目标预训练模型为分别基于携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练得到的模型。

另一方面，提供了一种基于多模态的文本生成模型训练装置，所述装置包括：

数据集获取模块：用于获取混合样本数据集；所述混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料；

预训练模块：用于分别基于所述携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像和所述上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练，得到目标预训练模型。

另一方面，提供了一种基于多模态的文本生成装置，所述装置包括：

输入数据获取模块：用于获取输入文本和对应的输入图像；

特征提取模块：用于调用目标文本生成模型分别对所述输入文本和所述输入图像进行特征提取，得到输入文本特征和输入图像特征；

文本生成模块：用于调用所述目标文本生成模型对所述输入文本特征和所述输入图像特征进行文本生成处理，得到与所述输入文本和所述输入图像对应的目标输出文本；

另一方面提供了一种电子设备，所述设备包括处理器和存储器，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的基于多模态的文本生成方法或文本生成模型训练方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的基于多模态的文本生成方法或文本生成模型训练方法。

另一方面提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的基于多模态的文本生成方法或文本生成模型训练方法。

另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时实现如上述的基于多模态的文本生成方法或文本生成模型训练方法。

本申请提供的基于多模态的文本生成模型训练方法、文本生成方法、装置、设备、存储介质、服务器、计算机程序或计算机程序产品，具有如下技术效果：

本申请获取混合样本数据集；混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料；分别基于携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练，得到目标预训练模型；上述技术方案利用包括单模态和多模态训练数据的混合样本数据对初始文本模型分别进行物体识别、文本描述生成、情感识别和文本生成的多任务训练，提高预训练模型的预训练模型的准确率和精确率，使得到的预训练模型适用于基于多模态下游任务的模型正式训练，提高文本生成模型的模型效果，提高输出文本与输入数据的匹配性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种基于多模态的文本生成模型训练方法的流程示意图；

图3是本申请实施例提供的一个携带物体标签的图像；

图4是本申请实施例提供的一个情感分类标签的图像；

图5是本实施例提供的一种预设情感分类模型的模型结构示意图；

图6是本申请实施例提供的一种初始文本生成模型的模型结构示意图；

图7是本申请实施例提供的一种目标物体识别预训练任务的过程示意图；

图8是本申请实施例提供的一种文本描述生成预训练任务的过程示意图；

图9是本申请实施例提供的一种初始图像表示网络的模型结构示意图；

图10是本申请实施例提供的一种情感识别预训练任务的过程示意图；

图11是本申请实施例提供的一种文本生成预训练任务的过程示意图；

图12本申请实施例提供的一种基于多模态的文本生成方法的流程示意图；

图13本申请实施例提供的一种基于多模态的文本生成模型训练装置的结构示意图；

图14本申请实施例提供的一种基于多模态的文本生成装置的结构示意图；

图15是本申请实施例提供的一种基于多模态的文本生成方法或文本生成模型训练方法的电子设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

预训练模型：在神经网络模型正式训练之前，用一个模型对神经网络模型的参数进行预先训练，从而提高正式训练的效果。这里预训练部分称为pretrain，“正式训练”称为finetune。预训练部分做的任务称为预训练任务，finetune阶段做的任务称为下游任务。

图片情感分类：基于图像中的面部表情等分析图片所表达的情感。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及人工智能的机器学习/深度学习、计算机视觉技术、自然语言处理和语音技术等技术，具体通过如下实施例进行说明。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，如图1所示，该应用环境可以至少包括服务器01和终端02。在实际应用中，服务器01和终端02可以通过有线或无线通信方式进行直接或间接地连接，以实现终端02与服务器01间的交互，本申请在此不做限制。

本申请实施例中，服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。具体地，服务器可以包括实体设备，可以具体包括有网络通信单元、处理器和存储器等等，也可以包括运行于实体设备中的软体，可以具体包括有应用程序等。本申请实施例中，服务器01可以用于提供初始生成模型的预训练服务，以得到目标预训练模型；或者也可以提供目标预训练模型的文本生成训练服务，以生成目标文本生成模型；或者还可以用于基于目标文本生成模型，对输入图像和对应的输入文本进行输出文本的生成服务，输入文本和输出文本为对应的前后文，例如输入图像和图像标题的前半句，输出图像标题的后半句，或输入图像和图像描述的前段语句，输出图像描述的后段语句，或输入图像和对话上文文本，输出对话下文文本等；或者还可以接收用户提交的输入图像和对应的语音，并对其进行语音处理，得到对应的输入文本。

本申请实施例中，终端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能电视、智能音箱、智能可穿戴设备、车载终端设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中，终端02可以用于接收用户提交的输入图像和对应的上文文本，并将其发送至服务器01，以进行下文文本的预测。或者还可以接收用户提交的输入图像和对应的语音，并对其进行语音处理，得到对应的上文文本。

此外，需要说明的是，图1所示的仅仅是一种基于多模态的文本模型训练和预测方法的应用环境，该应用环境可以包括更多或更少的节点，本申请在此不做限制。

以下基于上述应用环境介绍本申请的一种基于多模态的文本生成模型训练方法，应用于服务器端。图2是本申请实施例提供的一种基于多模态的文本生成方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，方法可以包括下述步骤。

S201：获取混合样本数据集。所述混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料。

本申请实施例中，混合样本数据集中包括多种类别的训练数据，分别包括：第一样本图像和对应的物体标签，第二样本图像和对应的文本描述，第三样本图像和对应的情感分类标签，以及上下文语料。具体的，物体标签用于标记和描述第一样本图像中目标对象，目标对象可以为非活体对象或活体对象，请参考图3，图3为一个包括物体标签标记的图像示例。具体的，上述文本描述可以为用于描述第二样本图像的完整文本语句，如完整的图像标题语句或完整的图像内容语句，或者也可以为用于描述第二样本图像的描述上文文本，如图像标题语句的前半句或图像内容语句的前段。具体的，混合样本数据集中的第三样本图像包括具有情感特征的图像，情感分类标签用于表征第三样本图像中目标对象的情绪，目标对象可以为非活体对象或活体对象，请参考图4，图4为一个包括情感分类标签标记的图像示例。具体的，上下文语料为包括上文语句和下文语句对的文本语料，例如问题答复对语料或对话语料等。在实际应用中，基于上述各种类别的训练数据构建混合样本数据集。

在实际应用中，第三样本图像/情感分类标签对的数据量较小，进而限制预训练模型的模型效果，无法满足预训练需求，进而影响后续的模型训练和应用效果。为提高第三样本图像/情感分类标签对的数据量，S201可以包括下述步骤。

S2011：获取所述第三样本图像。

S2012：利用预设情感分类模型的图像语义提取网络对所述第三样本图像进行语义特征提取，得到第一图像语义特征。

S2013：利用所述预设情感分类模型的多层感知网络对所述第一图像语义特征进行情感分类处理，得到所述第三样本图像对应的情感分类标签。

在一些实施例中，在步骤S2011之前，还包括基于情感分类图像数据集对预设情感分类模型的进行模型训练步骤。情感分类图像数据集包括第五样本图像和对应的情感分类标签，这里的第五样本图像/情感分类标签对可以包括能够直接从网络或图像数据库中获取的数据，也可以包括人工标注的数据。预设情感分类模型为基于第五样本图像和对应的情感分类标签对初始情感分类模型进行情感分类的约束训练得到的模型。需要说明的是，上述约束训练的方式可为现有的训练方式，本申请不做限制。

在一些实施例中，预设情感分类模型可以包括图像语义提取网络和多层感知网络，将第三样本图像输入图像语义提取网络，以进行语义理解，实现语义特征提取，并将图像语义提取网络输出的第一图像语义特征输入多层感知网络，对第一图像语义特征进行情感抽象，得到第三样本图像的情感分类信息，进而基于该情感分类信息生成对应的情感分类标签。

在一些实施例中，预设情感分类模型的模型结构如图5所示，图像语义提取网络包括卷积层、池化层和全联通层，多层感知网络包括至少一层非线性变换层和至少一层全联通层等，预设情感分类模型还包括分类层。具体的，将第三样本图像输入图像语义提取网络的卷积层，以提取第三样本图像的多个局部特征，并将其输入至池化层进行池化处理，并通过全联通层输出第一图像语义特征；多层感知网络基于非线性变换层和全联通层对第一图像语义特征进行特征提取，得到情感分类信息，并出入分类层，以得到情感分类标签。

具体的，图像语义提取网络可以是但不限于CNN(Convolutional NeuralNetworks，卷积神经网络)或RNN(Recurrent Neural Network，循环神经网络)，多层感知网络可以是但不限于MLP(Multilayer Perceptron，多层感知机)。具体的，MLP为前馈人工神经网络。

利用该预设情感分类模型能够生成大量的带有情感分类标签的图像数据，进而扩展混合训练样本集中的训练数据，弥补情感标注图像数据量不足的问题。需要说明的是，这里的得到的数据为弱标注数据，相应的情感分类标签为弱标签。

在一些情况下，混合样本数据集还可以包括上述的第四样本图像和对应的情感分类标签。

S203：分别基于所述携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像和所述上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练，得到目标预训练模型。

本申请实施例中，基于混合样本数据集中各类别训练数据分别对初始生成模型进行训练。具体的，本申请将所有种类的数据混合为一个训练集，采取数据混合训练的方式进行初始生成模型的训练，例如随机抽取混合样本数据集中训练数据，或将各类别训练数据进行随机混合，然后顺序抽取混合样本数据集中的训练数据，然后基于抽取的训练数据对初始生成模型进行该数据种类对应的预训练任务，而不是基于多个仅包括单一种类数据的数据集，分顺序对初始生成模型进行预训练。如此，能够均衡各预训练任务的训练效果，避免模型参数偏向某个特定任务，进而提高预训练模型的效果，以及后续的模型应用效果。

具体的，上述预训练任务为物体识别预训练任务、文本描述生成预训练任务、情感识别预训练任务或下文文本生成预训练任务，上述数据种类表征抽取的训练数据为携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像或所述上下文语料。

在实际应用中，请参考图6，图6示出了初始生成模型的模型结构，所述初始生成模型包括初始图像表示网络、初始物体识别网络、初始文本嵌入网络和初始特征编码网络，以及输入层和输出层。该模型既可以接受纯文本数据，也可以接受纯图像数据、也可以接受“文本-图像聚对”的数据，适用于后续的混合的单模态和多模态数据的多任务训练，得到的模型具有良好的鲁棒性、精确性和准确率。

相应的，S203可以包括下述步骤。

S2031：利用所述携带物体标签的第一样本图像对所述初始物体识别网络和初始特征编码网络进行目标物体识别的预训练。

具体的，利用所述携带物体标签的第一样本图像进行物体识别预训练任务。调用初始物体识别网络对所述第一样本图像进行图像特征提取，以对第一样本图像中的目标物体进行向量化表示，得到第一样本图像中的至少一个目标物体的样本物体向量，样本物体向量为样本物体特征的向量化表示，这里的目标物体可以包括第一样本图像中的非活体对象。然后调用所述初始特征编码网络基于注意力机制对第一样本图像的样本物体特征进行特征编码处理，将物体特征向量输入初始特征编码网络中进行编码处理，以得到第一样本图像的物体描述信息，进而利用初始生成模型的输出层将物体描述信息映射为物体识别结果。根据物体识别结果和对应的物体标签确定第一模型损失，基于第一模型损失调整初始生成模型的模型参数，即调整初始物体识别网络和初始特征编码网络的网络参数，以实现初始生成模型的目标物体识别的预训练任务。

在一些实施例中，初始物体识别网络可以是但不限于R-CNN(Region-Convolutional Neural Networks，区域卷积神经网络)、Fast R-CNN或Faster-RCNN等。初始特征编码网络可以为transformer(变换器)网络，可以包括encoder(编码器)和decoder(解码器)。基于该初始物体识别网络和初始特征编码网络能够对图片中的每个物体进行预测或分类，根据预测或分类结果的正确与否进行反馈学习。

请参考图7，图7示出了一个目标物体识别预训练任务的过程示意图。以图3中携带物体标签的图像为初始物体识别网络的输入，输出该图像中各物体的物体特征O_1,1，O_1,2，O_1,3，O_1,4和O_1,5，将其输入初始特征编码网络，并经输出层输出与物体特征对应的物体识别结果，O_1,1至O_1,5的物体标签分别为Car，Traffic light，Truck，Truck和Car。

S2032：利用所述携带文本描述的第二样本图像对所述初始物体识别网络、所述初始文本嵌入网络和所述初始特征编码网络进行文本描述生成的预训练。

具体的，利用所述携带文本描述的第二样本图像进行文本描述生成预训练任务，该文本描述生成预训练任务可以为生成图像的文本描述，或者可以为生成与图像和文本描述的前半部分对应的文本描述的后半部分。在一些情况下，第二样本图像为输入数据，文本描述期望输出。调用初始物体识别网络对所述第二样本图像进行图像特征提取，以对第二样本图像中的目标物体进行向量化表示，得到第二样本图像中的至少一个目标物体的样本物体向量，样本物体向量为样本物体特征的向量化表示，这里的目标物体可以包括第二样本图像中的非活体对象和/或活体对象。调用所述初始特征编码网络基于注意力机制对第二样本图像的样本物体特征进行特征编码处理，即将物体特征向量输入初始特征编码网络中进行编码处理，以得到第二样本图像的参考文本描述信息，进而利用初始生成模型的输出层将参考文本描述信息映射为参考文本描述结果。根据参考文本描述结果和对应的文本描述确定第二模型损失，基于第二模型损失调整初始生成模型的模型参数，即调整初始物体识别网络、初始文本嵌入网络和初始特征编码网络的网络参数，以实现初始生成模型的文本描述生成预训练任务。

在另一些情况下，文本描述包括文本描述上文和文本描述下文，第二样本图像和文本描述上文为输入数据，文本描述下文为期望输出。或者，也可以为第二样本图像和文本描述下文为输入数据，文本描述上文为期望输出。具体的，调用初始物体识别网络对所述第二样本图像进行图像特征提取，得到第二样本图像的样本物体特征，具体过程如前述，不再赘述。并且，调用初始文本嵌入网络对文本描述上文或文本描述下文进行特征嵌入处理，得到对应的样本分词向量序列，样本分词向量序列为文本描述上文或文本描述下文的样本文本特征的向量化表示。然后，将第二样本图像的样本物体特征和样本文本特征输入初始特征编码网络中进行编码处理，得到对应的参考描述下文信息或参考描述上文信息，可以理解的，参考描述下文信息与文本描述上文对应，参考描述上文信息与文本描述下文对应。然后利用初始生成模型的输出层将参考描述下文信息或参考描述上文信息映射为参考文本描述结果。根据参考文本描述结果和对应的文本描述上文或文本描述下文确定第二模型损失，基于第二模型损失调整初始生成模型的模型参数，即调整初始物体识别网络、初始文本嵌入网络和初始特征编码网络的网络参数，以实现初始生成模型的文本描述生成预训练任务。

在一些实施例中，初始文本嵌入网络可以是现有的能够对输入文本进行分词处理，得到文本分词序列，并对文本分词序列进行特征嵌入处理，得到对应的文本分词向量序列的网络。一个实施例中，初始文本嵌入网络可以包括分词层，以及词嵌入层(WordPieceEmbedding)和位置嵌入层(Position Embedding)，或词嵌入层(WordPiece Embedding)、位置嵌入层(Position Embedding)和分割嵌层(Segment Embedding)。其中，分词层对输入文本进行分词处理，得到文本分词序列；词嵌入层对文本分词序列中的各分词进行词嵌入处理，得到各分词的词向量；位置嵌入层对文本分词序列中的各分词进行位置嵌入处理，得到各分词的位置向量；分割嵌入层对文本分词序列进行语句分割处理，得到各分词的语句特征，语句特征表征该分词属于输入文本中的某一语句；进而，将每个分词的词向量、位置向量和语句特征进行拼接处理，得到每个分词的分词向量，进而得到输入文本的文本分词向量序列。

请参考图8，图8示出了一个文本描述生成预训练任务的过程示意图。以图3中携带物体标签的图像为初始物体识别网络的输入，输出该图像中各物体的物体特征O_1,1，O_1,2，O_1,3，O_1,4和O_1,5，以图3中图像的文本描述上文“good morning everyone，It’s”输入初始文本嵌入网络，输出对应的样本分词向量序列X₁/X₂/X₃/X₄，然后将O_1,1，O_1,2，O_1,3，O_1,4和O_1,5，以及X₁/X₂/X₃/X₄输入初始特征编码网络，并经过输出层输出参考文本描述结果“It’s goodweather today”。

S2033：利用所述携带情感分类标签的第三样本图像对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行情感识别的预训练。

在实际应用中，利用所述携带情感分类标签的第三样本图像进行情感识别预训练任务。S2033可以包括下述步骤。

S20331：调用所述初始图像表示网络对所述第三样本图像进行图像特征提取，得到所述第三样本图像的样本图像语义特征。

S20332：调用所述初始物体识别网络对所述第三样本图像进行物体特征提取，得到所述第三样本图像的样本物体特征。

S20333：调用所述初始特征编码网络基于注意力机制对所述样本图像语义特征和所述样本物体特征进行特征编码处理，得到样本情绪特征。

S20334：基于所述样本情绪特征和所述情感分类标签对应的损失值对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行迭代训练，以进行所述情感识别的预训练。

具体的，利用初始图像表示网络对第三样本图像进行向量化表示，得到样本图像语义特征。具体的，利用初始物体识别网络对所述第三样本图像中的目标物体进行向量化表示，得到第三样本图像中的至少一个目标物体的样本物体向量，样本物体向量为样本物体特征的向量化表示，这里的目标物体可以包括第三样本图像中的非活体对象和/或活体对象，样本物体特征可以包括表情向量，也可以包括物体向量。具体的，将样本物体特征和样本图像语义特征输入初始特征编码网络，得到样本情绪特征，并利用初始生成模型的输出层将样本情绪特征映射为情感类别结果。根据情感类别结果和对应的情感分类标签确定第三模型损失，基于第三模型损失调整初始生成模型的模型参数，即调整初始图像表示网络、初始物体识别网络和初始特征编码网络的网络参数，以实现初始生成模型的文本描述生成预训练任务。在一些情况下，样本图像语义特征可以为一个向量，样本物体特征为至少一个向量，二者形成图像向量序列，输入初始特征编码网络。

如前述的，第三样本图像的情感分类标签为基于前述的预设情感情感分类模型生成的弱标签，基于该弱标签进行模型反馈学习，得到相应的模型参数。

在一些实施例中，初始图像表示网络可以是但不限于CNN(Convolutional NeuralNetworks，卷积神经网络)或RNN(Recurrent Neural Network，循环神经网络)。具体的，初始图像表示网络与前述预设情感分类模型中的图像语义提取网络相类似，或者也可以直接将该图像语义提取网络作为初始文本生成模型的初始图像表示网络。在一个实施例中，初始图像表示网络基于CNN构建，请参考图9，图9示出了一个初始图像表示网络的模型结构示意图，该初始图像表示网络包括卷积层、池化层和全联通层，以图像为输入，经过卷积、池化和全连接处理，输出图像语义特征。

在一些情况下，混合样本数据集还包括上述的第四样本图像和对应的情感分类标签，也可以利用所述携带情感分类标签的第四样本图像进行情感识别预训练任务，具体实现方式与S203相类似，不再赘述。

请参考图10，图10示出了一个情感识别预训练任务的过程示意图。以图3中携带物体标签的图像作为初始物体识别网络和初始图像表示网络的输入，分别输出该图像中各物体的物体特征O_1,1，O_1,2，O_1,3，O_1,4和O_1,5，以及样本图像语义特征Y，并将O_1,1，O_1,2，O_1,3，O_1,4，O_1,5和Y输入初始特征编码网络，然后经过输出层输出情感类别特征。

S2034：利用所述上下文语料对所述初始文本嵌入网络和所述初始特征编码网络进行文本生成的预训练。

具体的，利用所述上下文语料进行文本生成预训练任务。上下文语料包括上文语句和下文语句，若以上文语句为输入数据，则下文语句为文本标签，若以下文语句为输入数据，则上文语句为文本标签。相类似的，利用初始文本嵌入网络对输入的文本进行嵌入处理，然后将其输出的文本向量序列输入初始特征编码网络进行特征编码处理，得到预测文本特征，并将并利用初始生成模型的输出层将预测文本特征映射为预测文本结果。根据预测文本结果和对应的文本标签确定第四模型损失，基于第四模型损失调整初始生成模型的模型参数，以实现初始生成模型的文本生成预训练任务。

请参考图11，图11示出了一个文本生成预训练任务的过程示意图。以上文语句“good morning everyone，It’s”输入初始文本嵌入网络，输出对应的样本分词向量序列X1/X2/X3/X4，然后将X1/X2/X3/X4输入初始特征编码网络，并经处输出层输出与“It’sgood weather today”对应的预测文本结果。

基于上述全部或部分实施方式，在一些实施例中，在S203之后，所述方法还可以包括下述步骤。

S205：获取多模态训练数据集。所述多模态训练数据集包括样本上文文本，以及与所述样本上文文本匹配的第四样本图像和样本下文文本。

S207：基于相匹配的所述样本上文文本、所述第四样本图像和所述样本下文文本，对所述目标预训练模型进行文本生成训练，得到目标文本生成模型。

本申请实施例中，在得到目标预训练模型后，还需对其进行微调。具体的，在应用于多模态数据的文本生成应用场景中，以匹配的第四样本图像和样本上文文本作为目标预训练模型的输入，以对应的样本下文文本作为目标预训练模型的期望输出，对目标预训练模型进行文本生成的约束训练，得到目标文本生成模型。可以理解的，也可以以以匹配的第四样本图像和样本下文文本作为输入，以对应的样本上文文本作为期望输出。

综上，本申请利用包括单模态和多模态训练数据的混合样本数据对初始文本模型分别进行物体识别、文本描述生成、情感识别和文本生成的多任务训练，提高预训练模型的预训练模型的准确率和精确率，使得到的预训练模型适用于基于多模态下游任务的模型正式训练，提高文本生成模型的模型效果，提高输出文本与输入数据的匹配性。

以下基于上述应用环境介绍本申请的一种基于多模态的文本生成方法，应用于服务器端。图12是本申请实施例提供的一种基于多模态的文本生成方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图12所示，方法可以包括下述步骤。

S301：获取输入文本和对应的输入图像。

本申请实施例中，输入文本和输入图像可以为用户在终端上提交的文本和图像。在一些情况下，如用户在终端提交的为语音数据，则在步骤S301之前，还可以包括：对目标语音数据进行语音处理，得到对应的输入文本。

S303：调用目标文本生成模型分别对所述输入文本和所述输入图像进行特征提取，得到输入文本特征和输入图像特征。

在实际应用中，所述目标文本生成模型包括图像表示网络、物体识别网络和文本嵌入网络，S303可以包括下述步骤。

S3031：调用所述图像表示网络对所述输入图像进行图像特征提取，得到所述输入图像特征中的第二图像语义特征。

S3032：调用所述物体识别网络对所述输入图像进行物体特征提取，得到所述输入图像特征中的目标物体特征；所述目标物体特征包括所述输入图像中的至少一个目标物体的特征。

S3033：调用所述文本嵌入网络对所述输入文本进行特征嵌入处理，得到所述输入文本特征。

本申请实施例中，步骤S3031与前述S20331中利用初始图像表示网络对第三样本图像的处理过程相类似，步骤S3032与前述S20332中利用初始图像表示网络对第三样本图像的处理过程相类似，步骤S3033与前述的利用初始文本嵌入网络对输入文本的处理过程相类似，在此不再赘述。

S305：调用所述目标文本生成模型对所述输入文本特征和所述输入图像特征进行文本生成处理，得到与所述输入文本和所述输入图像对应的目标输出文本。

其中，所述目标文本生成模型为对目标预训练模型进行微调训练得到的模型。所述目标预训练模型为分别基于携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练得到的模型。

在实际应用中，所述目标文本生成模型还包括特征编码网络，S305可以包括下述步骤。

S3051：调用所述目标文本生成模型的特征编码网络基于注意力机制对所述输入文本特征和输入图像特征进行特征编码处理，得到目标文本特征。

S3052：根据所述目标文本特征确定所述目标输出文本。

在实际应用中，基于输入文本特征和输入图像特征，得到由输入文本特征中的各分词向量，输入图像特征中的图像语义向量，以及输入图像特征中的物体向量和/或情绪向量组成的目标特征向量序列，并将其输入特征编码网络，得到目标文本特征，并利用目标文本生成模型的输出层将其映射为目标输出文本，情绪向量为情绪特征的向量化表示，可以是基于输入图像中的面部表情得到的特征。在输入图像特征中不包括情绪特征的情况下，特征编码网络的输入包括第二图像语义特征和物体特征；在输入图像特征中包括情绪特征的情况下，特征编码网络的输入包括第二图像语义特征和情绪特征，或者第二图像语义特征、物体特征和情绪特征。上述步骤S3051和S3052与前述的S2032相类似，不再赘述。

可以理解的，目标文本生成模型的模型结构与前述的初始文本生成模型的结构相类似。

本申请实施例还提供了一种基于多模态的文本生成模型训练装置10，如图13所示，图13示出了本申请实施例提供的一种基于多模态的文本生成模型训练装置的结构示意图，装置可以包括下述模块。

数据集获取模块11：用于获取混合样本数据集；所述混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料。

预训练模块12：用于分别基于所述携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像和所述上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练，得到目标预训练模型。

在一些实施例中，所述数据集获取模块11包括下述子模块。

样本图像获取子模块：用于获取所述第三样本图像。

第一语义特征获取子模块：用于利用预设情感分类模型的图像语义提取网络对所述第三样本图像进行语义特征提取，得到第一图像语义特征。

情感分类标签获取子模块：用于利用所述预设情感分类模型的多层感知网络对所述第一图像语义特征进行情感分类处理，得到所述第三样本图像对应的情感分类标签。

在一些实施例中，所述初始生成模型包括初始图像表示网络、初始物体识别网络、初始文本嵌入网络和初始特征编码网络；预训练模块12包括下述子模块。

物体识别预训练子模块：用于利用所述携带物体标签的第一样本图像对所述初始物体识别网络和初始特征编码网络进行目标物体识别的预训练。

文本描述生成预训练子模块：用于利用所述携带文本描述的第二样本图像对所述初始物体识别网络、所述初始文本嵌入网络和所述初始特征编码网络进行文本描述生成的预训练。

情感识别子预训练模块：用于利用所述携带情感分类标签的第三样本图像对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行情感识别的预训练。

文本生成预训练子模块：用于利用所述上下文语料对所述初始文本嵌入网络和所述初始特征编码网络进行文本生成的预训练。

在一些实施例中，情感识别子预训练模块包括下述单元。

样本语义特征提取单元：用于调用所述初始图像表示网络对所述第三样本图像进行图像特征提取，得到所述第三样本图像的样本图像语义特征。

样本情绪特征提取单元：用于调用所述初始物体识别网络对所述第三样本图像进行物体特征提取，得到所述第三样本图像的样本物体特征。

样本特征编码单元：用于调用所述初始特征编码网络基于注意力机制对所述样本图像语义特征和所述样本物体特征进行特征编码处理，得到样本情绪特征。

迭代训练单元：用于基于所述样本情绪特征和所述情感分类标签对应的损失值对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行迭代训练，以进行所述情感识别的预训练。

在一些实施例中，装置还包括下述模块。

多模态数据获取模块：用于在所述得到目标预训练模型之后，获取多模态训练数据集。所述多模态训练数据集包括样本上文文本，以及与所述样本上文文本匹配的第四样本图像和样本下文文本。

文本生成训练模块：用于基于相匹配的所述样本上文文本、所述第四样本图像和所述样本下文文本，对所述目标预训练模型进行文本生成训练，得到目标文本生成模型。

上述装置实施例与方法实施例基于相同的实施方式。

本申请实施例还提供了一种基于多模态的文本生成方法装置20，如图14所示，图14示出了本申请实施例提供的一种基于多模态的文本生成方法装置的结构示意图，装置可以包括下述模块。

输入数据获取模块21：用于获取输入文本和对应的输入图像.

特征提取模块22：用于调用目标文本生成模型分别对所述输入文本和所述输入图像进行特征提取，得到输入文本特征和输入图像特征。

文本生成模块23：用于调用所述目标文本生成模型对所述输入文本特征和所述输入图像特征进行文本生成处理，得到与所述输入文本和所述输入图像对应的目标输出文本。

在一些实施例中，所述目标文本生成模型包括图像表示网络、物体识别网络和文本嵌入网络，特征提取模块22可以包括下述子模块。

图像特征提取子模块：用于调用所述图像表示网络对所述输入图像进行图像特征提取，得到所述输入图像特征中的第二图像语义特征。

物体特征提取子模块：用于调用所述物体识别网络对所述输入图像进行物体特征提取，得到所述输入图像特征中的目标物体特征；所述目标物体特征包括所述输入图像中的至少一个目标物体的特征。

特征嵌入子模块：用于调用所述文本嵌入网络对所述输入文本进行特征嵌入处理，得到所述输入文本特征。

在一些实施例中，所述目标文本生成模型还包括特征编码网络，文本生成模块30包括下述子模块。

特征编码子模块：用于调用所述目标文本生成模型的特征编码网络基于注意力机制对所述输入文本特征和输入图像特征进行特征编码处理，得到目标文本特征。

文本确定子模块：用于根据所述目标文本特征确定所述目标输出文本。

上述装置实施例与方法实施例基于相同的实施方式。

本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的基于多模态的文本生成方法或文本生成模型训练方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等。存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置等电子设备中执行。图15是本申请实施例提供的一种基于多模态的文本生成方法或文本生成模型训练方法的电子设备的硬件结构框图。如图15所示，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(CentralProcessing Units，CPU)810(处理器810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器830，一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中，存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器810可以设置为与存储介质820通信，在电子设备800上执行存储介质820中的一系列指令操作。电子设备800还可以包括一个或一个以上电源860，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口840，和/或，一个或一个以上操作系统821，例如Windows Server^TM，Mac OS X^TM，Unix^TM,LinuxTM，FreeBSDTM等。

输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备800的通信供应商提供的无线网络。在一个实例中，输入输出接口840包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口840可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图15所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备800还可包括比图15中所示更多或者更少的组件，或者具有与图15所示不同的配置。

本申请的实施例还提供了一种计算机可读存储介质，存储介质可设置于服务器之中以保存用于实现方法实施例中一种基于多模态的文本生成方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的基于多模态的文本生成方法或文本生成模型训练方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

由上述本申请提供的基于多模态的文本生成方法、文本模型训练方法、装置、设备、服务器、存储介质、计算机程序或计算机程序产品的实施例可见，本申请利用包括单模态和多模态训练数据的混合样本数据对初始文本模型分别进行物体识别、文本描述生成、情感识别和文本生成的多任务训练，提高预训练模型的预训练模型的准确率和精确率，使得到的预训练模型适用于基于多模态下游任务的模型正式训练，提高文本生成模型的模型效果，提高输出文本与输入数据的匹配性。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指示相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于多模态的文本生成模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取混合样本数据集包括：

获取所述第三样本图像；

利用预设情感分类模型的图像语义提取网络对所述第三样本图像进行语义特征提取，得到第一图像语义特征；

利用所述预设情感分类模型的多层感知网络对所述第一图像语义特征进行情感分类处理，得到所述第三样本图像对应的情感分类标签。

3.根据权利要求1所述的方法，其特征在于，所述初始生成模型包括初始图像表示网络、初始物体识别网络、初始文本嵌入网络和初始特征编码网络；所述分别基于所述携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像和所述上下文语料，对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练包括：

利用所述携带物体标签的第一样本图像对所述初始物体识别网络和初始特征编码网络进行目标物体识别的预训练；

利用所述携带文本描述的第二样本图像对所述初始物体识别网络、所述初始文本嵌入网络和所述初始特征编码网络进行文本描述生成的预训练；

利用所述携带情感分类标签的第三样本图像对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行情感识别的预训练；

利用所述上下文语料对所述初始文本嵌入网络和所述初始特征编码网络进行文本生成的预训练。

4.根据权利要求3所述的方法，其特征在于，所述利用所述携带情感分类标签的第三样本图像对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行情感识别的预训练包括：

调用所述初始图像表示网络对所述第三样本图像进行图像特征提取，得到所述第三样本图像的样本图像语义特征；

调用所述初始物体识别网络对所述第三样本图像进行物体特征提取，得到所述第三样本图像的样本物体特征；

调用所述初始特征编码网络基于注意力机制对所述样本图像语义特征和所述样本物体特征进行特征编码处理，得到样本情绪特征；

基于所述样本情绪特征和所述情感分类标签对应的损失值对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行迭代训练，以进行所述情感识别的预训练。

5.根据权利要求1-4中任一项所述的方法，其特征在于，在所述得到目标预训练模型之后，所述方法还包括：

获取多模态训练数据集；所述多模态训练数据集包括样本上文文本，以及与所述样本上文文本匹配的第四样本图像和样本下文文本；

基于相匹配的所述样本上文文本、所述第四样本图像和所述样本下文文本，对所述目标预训练模型进行文本生成训练，得到目标文本生成模型。

6.一种基于多模态的文本生成方法，其特征在于，所述方法包括：

获取输入文本和对应的输入图像；

7.根据权利要求6所述的方法，其特征在于，所述目标文本生成模型包括图像表示网络、物体识别网络和文本嵌入网络，所述调用目标文本生成模型分别对所述输入文本和所述输入图像进行特征提取，得到所述输入文本的上文文本特征和所述输入图像的图像特征包括：

调用所述图像表示网络对所述输入图像进行图像特征提取，得到所述输入图像特征中的第二图像语义特征；

调用所述物体识别网络对所述输入图像进行物体特征提取，得到所述输入图像特征中的目标物体特征；所述目标物体特征包括所述输入图像中的至少一个目标物体的特征；

调用所述文本嵌入网络对所述输入文本进行特征嵌入处理，得到所述输入文本特征。

8.根据权利要求6所述的方法，其特征在于，所述目标文本生成模型还包括特征编码网络，所述调用所述目标文本生成模型对所述输入文本特征和所述输入图像特征进行文本生成处理，得到与所述输入文本和所述输入图像对应的目标输出文本包括：

调用所述目标文本生成模型的特征编码网络基于注意力机制对所述输入文本特征和输入图像特征进行特征编码处理，得到目标文本特征；

根据所述目标文本特征确定所述目标输出文本。

9.一种基于多模态的文本生成模型训练装置，其特征在于，所述装置包括：

10.一种基于多模态的文本生成装置，其特征在于，所述装置包括：

输入数据获取模块：用于获取输入文本和对应的输入图像；