CN117216535A

CN117216535A - 推荐文本生成模型的训练方法、装置、设备及介质

Info

Publication number: CN117216535A
Application number: CN202310185070.8A
Authority: CN
Inventors: 丁瑶; 姜文浩; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-12-12

Abstract

本申请公开了一种推荐文本生成模型的训练方法、装置、设备及介质，涉及人工智能技术领域。该方法包括：通过候选文本生成模型对样本推荐对象的关键信息进行特征提取，得到关键信息对应的多个样本特征表示；对多个样本特征表示进行特征融合，得到融合特征表示，并对融合特征表示进行推荐文本预测，生成样本推荐对象对应的预测推荐文本；基于预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。在对候选文本生成模型进行训练的过程中，对输入模型的关键信息进行多模态的特征提取，多个模态信息之间进行交叉互补，提高了最终训练得到的推荐文本生成模型生成的推荐文本的多样性。

Description

推荐文本生成模型的训练方法、装置、设备及介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种推荐文本生成模型的训练方法、装置、设备及介质。

背景技术

推荐文本(例如：广告文案)是广告中最重要的元素之一，通过一段有说服力的文字描写，可激发或激励人们采取特定行动，例如：通过具有吸引力的视频标题选择点击播放视频。目前，推荐文本的生成方式主要有两种，第一是有经验的作者根据广告主的需求撰写推荐文本，第二是通过推荐文本生成模型自动生成文案。

相关技术中，可通过对多个描述词以及其对应的历史广告文案进行深度学习，对基于长短期记忆(Long short-term memory，LSTM)的深度神经网络模型进行训练，得到广告文案生成模型。在实际使用时，广告主将描述词输入到广告文案生成模型中，即可产生符合预设语言规则的广告文案。

然而，在相关技术中训练得到的广告文案生成模型仅能应用于输入为文本模态数据的文案生成场景，即广告文案生成模型仅可实现的是文本-文本之间的转换关系，则生成的文案较为单一，缺少多样性。

发明内容

本申请实施例提供了一种推荐文本生成模型的训练方法、装置、设备及介质，能够增加训练得到的推荐文本生成模型生成的推荐文本的多样性，所述技术方案如下：

一方面，提供了一种推荐文本生成模型的训练方法，所述方法包括：

获取多个样本数据对，所述样本数据对中包括样本推荐对象的关键信息和参考推荐文本，所述参考推荐文本是指对所述样本推荐对象进行推荐的参考描述文本；

通过候选文本生成模型对所述样本推荐对象的关键信息进行特征提取，得到所述关键信息对应的多个样本特征表示，所述多个样本特征表示中包括对所述关键信息对应的多个模态分别提取得到的特征表示；

对所述多个样本特征表示进行特征融合，得到融合特征表示，并对所述融合特征表示进行推荐文本预测，生成所述样本推荐对象对应的预测推荐文本，所述预测文案是指以所述样本推荐对象为推荐目标预测得到的描述文本；

基于所述预测推荐文本和所述参考推荐文本之间的差异，对所述候选文本生成模型进行训练，得到所述推荐文本生成模型，所述推荐文本生成模型用于根据待推荐对象的关键信息生成推荐文本内容。

另一方面，提供了一种推荐文本生成模型的训练装置，所述装置包括：

数据获取模块，用于获取多个样本数据对，所述样本数据对中包括样本推荐对象的关键信息和参考推荐文本，所述参考推荐文本是指对所述样本推荐对象进行推荐的参考描述文本；

特征提取模块，用于通过候选文本生成模型对所述样本推荐对象的关键信息进行特征提取，得到所述关键信息对应的多个样本特征表示，所述多个样本特征表示中包括对所述关键信息对应的多个模态分别提取得到的特征表示；

特征融合模块，用于对所述多个样本特征表示进行特征融合，得到融合特征表示，并对所述融合特征表示进行推荐文本预测，生成所述样本推荐对象对应的预测推荐文本，所述预测文案是指以所述样本推荐对象为推荐目标预测得到的描述文本；

模型训练模块，用于基于所述预测推荐文本和所述参考推荐文本之间的差异，对所述候选文本生成模型进行训练，得到所述推荐文本生成模型，所述推荐文本生成模型用于根据待推荐对象的关键信息生成推荐文本内容。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述实施例中任一所述推荐文本生成模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述实施例中任一所述的推荐文本生成模型的训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的推荐文本生成模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过候选文本生成模型对样本推荐对象的关键信息进行特征提取，得到关键信息对应的多个模态分别提取的特征表示，然后，对该多个模态分别提取的特征表示进行特征融合，并对融合后的特征表示进行推荐文本预测，从而生成预测推荐文本，最后，根据预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。在对候选文本生成模型进行训练的过程中，对输入模型的关键信息进行多模态的特征提取，使得最后融合的特征表示包含有关键信息在多个模态上的表现，多个模态信息之间进行交叉互补，提高了最终训练得到的推荐文本生成模型生成的推荐文本的多样性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2是本申请一个示例性实施例提供的推荐文本生成模型的训练方法的流程图；

图3是本申请另一个示例性实施例提供的推荐文本生成模型的训练方法的流程图；

图4是本申请又一个示例性实施例提供的推荐文本生成模型的训练方法的流程图；

图5是本申请又一个示例性实施例提供的推荐文本生成模型的模型结构示意图；

图6是本申请一个示例性实施例提供的广告文案生成模型的应用示意图；

图7是本申请一个示例性实施例提供的推荐文本生成模型的训练装置的结构框图；

图8是本申请另一个示例性实施例提供的推荐文本生成模型的训练装置的结构框图；

图9是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

首先，针对本申请实施例中涉及的名词进行简单介绍。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

相关技术中，可通过对多个描述词以及其对应的历史广告文案进行深度学习，对基于长短期记忆(Long short-term memory，LSTM)的深度神经网络模型进行训练，得到广告文案生成模型。在实际使用时，广告主将描述词输入到广告文案生成模型中，即可产生符合预设语言规则的广告文案。然而，在相关技术中训练得到的广告文案生成模型仅能应用于输入为文本模态数据的文案生成场景，即广告文案生成模型仅可实现的是文本-文本之间的转换关系，则生成的文案较为单一，缺少多样性。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接，通信网络可以是有线网络，还可以是无线网络。

终端110能够是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备，本申请实施例对此不加以限定。可选地，终端110可以将多个样本数据对直接上传至服务器120中，也可以将原始样本数据集上传至服务器120中，由服务器120对该原始样本数据集进行处理，从而构建样本数据对，本实施例对此不加以限制。可选地，终端110中安装具有推荐文本生成功能的应用程序，示意性的，该应用程序包括推荐内容生成应用程序、即时通讯应用程序、新闻资讯应用程序、综合搜索引擎应用程序、社交应用程序、游戏应用程序、购物应用程序、视频应用程序等，本申请实施例对此不加以限定。

服务器120用于对候选推荐文本生成模型进行训练。服务器120可以从终端110中获取多个样本数据对，或者，服务器120中本身存储有标注有多个样本数据对。

服务器120中初始化有候选推荐文本生成模型，服务器120接收到多个样本数据对后，将多个样本数据对输入到候选推荐文本生成模型中，首先，对样本推荐对象的关键信息进行特征提取，得到关键信息对应的多个样本特征表示，其中，多个样本特征表示中包括对关键信息对应的多个模态分别提取得到的特征表示；然后，对多个样本特征表示进行特征融合，得到融合特征表示，并对融合特征表示进行推荐文本预测，生成样本推荐对象对应的预测推荐文本；最后，基于预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。

可选地，服务器120训练得到推荐文本生成模型后，可为终端110的推荐文本生成功能提供后台服务；或者，服务器120训练得到推荐文本生成模型后，可以将该推荐文本生成模型发送至终端110，终端110将推荐文本生成模型存储在本地，则终端110可以单独实现上述推荐文本生成功能。

在一些可选的实施例中，上述推荐文本生成模型的训练过程还可以实现在终端110中，本申请实施例对此不加以限定。

值得注意的是，服务器120能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模型应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。可选地，服务器120还可以实现为区块链系统中的节点。

需要进行说明的是，本申请在收集用户的相关数据(例如：多个样本数据对)之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍和实施环境，图2是本申请实施例提供的一种推荐文本生成模型的训练方法的流程图，以该方法应用于如图1所示的服务器中为例进行说明，该方法包括：

步骤201，获取多个样本数据对。

其中，样本数据对中包括样本推荐对象的关键信息和参考推荐文本，参考推荐文本是指对样本推荐对象进行推荐的参考描述文本。

多个样本数据对用于对推荐文本生成模型进行训练，示意性的，单个样本数据对的构成方式为(样本推荐对象的关键信息，参考推荐文本)，其中，样本推荐对象的关键信息为推荐文本生成模型的输入数据，参考推荐文本为模型训练时的监督信号。

可选地，上述样本推荐对象的关键信息包括以下信息中的至少一种：

1、文字信息。

示意性的，若样本推荐对象的关键信息实现为文字信息，假设样本推荐对象是粉色睡裙，则该关键信息可以是“粉色睡裙”这个词，也可以是“全棉材质的粉色睡裙”等对粉色睡裙进行描述的文字。

2、图像信息。

示意性的，图像信息是指显示有样本推荐对象的图像，例如：一张显示有粉色睡裙的图片。

3、音频信息。

示意性的，音频信息是指包含有样本推荐对象的音频，例如：包含粉色睡裙的一段语音数据；或者，音频信息本身即为样本推荐对象，例如：一首歌曲。

4、视频信息。

示意性的，视频信息是指包含有样本推荐对象的视频，例如：包含粉色睡裙的一段视频数据；或者，视频信息本身即为样本推荐对象，例如：一集电视剧。

可选地，输入推荐文本生成模型中的数据还包括样本辅助信息，该样本辅助信息用于辅助生成预测推荐文本；样本辅助信息包括：样本推荐对象所属的行业；样本推荐对象对应生成的预测推荐文本的最大字数；样本推荐对象对应生成的预测推荐文本的风格等。本申请实施例对样本辅助信息的种类和数量不加以限定。

可选地，参考推荐文本可实现为能引起受众对样本推荐对象的兴趣，并传达样本推荐对象的特点信息的广告文案。其中，广告文案可以是某商品的推荐文本，例如：某商品购买链接中的商品标题；广告文案还可以是对内容创作者创作的内容的推荐文本，例如：内容创作者发布的视频标题或者视频封面中显示的文字。

示意性的，对样本数据对的构建方法进行说明：可从已有的广告数据库中抽取多个广告信息，抽取得到多个广告信息后，首先，提取广告信息中的广告文案(这里的广告文案是指广告信息中文字化表现的推荐文案)作为参考推荐文本；然后，对广告信息进行关键信息抽取，抽取其中包含有样本推荐对象的关键词、图片数据、音频数据、视频数据等至少一种信息作为样本推荐对象的关键信息；最后，将提取得到的广告文案和该广告文案对应的关键信息进行匹配，最后构成的关键信息-广告文案数据对即为上述样本数据对。

步骤202，通过候选文本生成模型对样本推荐对象的关键信息进行特征提取，得到关键信息对应的多个样本特征表示。

其中，多个样本特征表示中包括对关键信息对应的多个模态分别提取得到的特征表示。

可选地，上述候选文本生成模型可实现为基于循环神经网络(Recurrent NeuralNetwork，RNN)的文本生成模型、基于卷积神经网络(Convolutional Neural Networks，CNN)的文本生成模型、基于转换器(transformer)的文本生成模型、基于生成对抗网络(Generative Adversarial Network，GAN)的文本生成模型、基于图卷积网络(GraphConvolutional Networks，GCN)的文本生成模型等中的至少一种，本申请实施例对此不加以限定。

对样本推荐对象的关键信息进行特征提取时，需要在多个模态上对样本推荐对象的关键信息进行特征提取，则得到关键信息对应的多个样本特征表示的情况包括以下情况中的至少一种：

1、样本推荐对象的关键信息中包括多个模态的样本数据。

可选地，若样本推荐文本的关键信息本身就包含多个模态的关键信息，则对多个模态的关键信息分别进行特征提取，从而得到关键信息对应的多个模态的特征表示。

例如：样本推荐对象的关键信息实现为关键词和广告宣传图片，则通过文本编码器对关键词进行文本编码，以及通过图像编码器对广告宣传图片进行图像编码，得到关键词对应的文本特征编码和广告宣传图片对应的图像特征编码，将该文本特征编码和图像特征编码作为多个样本特征表示。

2、样本推荐对象的关键信息为单一模态的样本数据。

可选地，若样本推荐对象的关键信息本身只包含单一模态的关键信息，则需要对关键信息进行模态扩展，然后基于扩展后的关键信息进行特征提取，从而得到关键信息对应的多个模态的特征表示。

以候选文本生成模型的特征提取模块实现为文本编码器和图像编码器为例进行说明：

示意性的，样本推荐文本的关键信息实现为关键词，则需要对该关键词进行图像模态扩展，例如：将该关键词输入到文本-图像匹配模型中，匹配得到与该关键词对应的目标图像，然后通过文本编码器对关键词进行文本编码，以及通过图像编码器对目标图像进行图像编码，从而得到关键信息对应的多个模态的特征表示。

在一些实施例中，若样本推荐文本的关键信息仅包含文本模态上的信息，还可对增加一张空白图片作为该样本推荐文本的关键信息对应的图像模态上的信息。示意性的，将样本推荐文本对应的关键词输入到文本编码器中，输出得到文本编码特征；将空白图像输入到图像编码器中，输出得到图像编码特征。

示意性的，样本推荐文本的关键信息实现为宣传图片，则需要对该宣传图片进行文本模态扩展，将该宣传图片输入到图片关键词识别模型中，提取得到该宣传图片对应的关键词，然后通过文本编码器对关键词进行文本编码，以及通过图像编码器对目标图像进行图像编码，从而得到关键信息对应的多个模态的特征表示。

示意性的，样本推荐文本的关键信息实现为宣传音频，则需要对该宣传音频进行文本模态和图像模态扩展，将该宣传音频输入到音频关键词识别模型中，提取得到该宣传音频对应的关键词，并将该宣传音频输入到音频-图像匹配模型中，匹配得到与该宣传音频对应的目标图像；然后通过文本编码器对关键词进行文本编码，以及通过图像编码器对目标图像进行图像编码，从而得到宣传音频对应的多个模态的特征表示。

示意性的，样本推荐文本的关键信息实现为宣传视频，则需要对该宣传视频进行文本模态和图像模态扩展，将该宣传视频输入到视频关键词识别模型中，提取得到该宣传视频对应的关键词，并将该宣传视频输入到视频-图像匹配模型中，匹配得到与该宣传视频对应的目标图像；然后通过文本编码器对关键词进行文本编码，以及通过图像编码器对目标图像进行图像编码，从而得到宣传视频对应的多个模态的特征表示。

在一些可选的实施例中，在对上述宣传图片、宣传音频，宣传视频进行文本模态扩展时，还可以将与样本推荐对象对应的样本辅助信息(例如：样本推荐对象所属的行业；样本推荐对象对应生成的预测推荐文本的最大字数；样本推荐对象对应生成的预测推荐文本的风格等)直接作为文本模态的关键信息进行特征提取，从而得到与之对应的文本特征表示。示意性的，将宣传图片输入到图像编码器中，输出得到图像特征编码；将样本推荐对象对应生成的预测推荐文本的风格标识输入到文本编码器中，输出得到文本特征编码(对于相同的输入图像，若其对应输入的预测推荐文本的风格标识不同，则最后模型输出的预测推荐文本的风格不同，例如：幽默型推荐文本、诗韵型推荐文本等)。

步骤203，对多个样本特征表示进行特征融合，得到融合特征表示，并对融合特征表示进行推荐文本预测，生成样本推荐对象对应的预测推荐文本。

其中，预测文案是指以样本推荐对象为推荐目标预测得到的描述文本。

可选地，候选文本生成模型中还包括特征融合模块，该特征融合模块对多个样本特征表示进行特征融合的方法包括如下至少一种：

1、基于注意力机制融合多个样本特征表示；

2、通过特征相加的方法融合多个样本特征表示；

3、通过特征向量相连接的方法融合多个样本特征表示。

需要进行说明的是，上述对多个样本特征表示进行特征融合的方法仅为示意性的举例，本申请实施例对特征融合的方法不加以限定。

示意性的，以基于注意力机制融合多个样本特征表示为例进行说明，该步骤包括：基于注意力机制计算得到多个样本特征表示分别对应的注意力权重；基于多个样本特征表示分别对应的注意力权重，对多个样本特征表示进行加权融合，得到融合特征表示。

可选地，候选文本生成模型中还包括融合特征解码器，得到融合特征表示之后，将融合特征表示输入到融合特征解码器中，输出样本推荐对象对应的预测推荐文本。

示意性的，上述融合特征解码器会依次生成预测推荐文本中的各个分词；融合特征解码器会生成词典中每个词典词汇的被选中作为预测推荐文本中的第i个词汇的概率，其中概率最高的词典词汇即为最终输出的预测推荐文本中的第i个词汇；则最终输出的各个分词组成的文本即为预测推荐文本。

步骤204，基于预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。

可选地，基于预测推荐文本和参考推荐文本之间的差异，生成目标损失；基于目标损失对候选文本生成模型进行训练，得到推荐文本生成模型。

可选地，候选文本生成模型对应的损失函数为交叉熵损失函数，即上述目标损失为预测推荐文本和参考推荐文本之间的交叉熵损失。

示意性的，在第t次迭代训练过程中，通过计算得到的目标损失对应的取值对本次迭代中的候选文本生成模型进行训练，得到第t+1次迭代中的候选文本生成模型，并继续进行后续训练，当目标损失收敛或者达到预设训练次数，则停止训练，此时得到的模型即为推荐文本生成模型，其中，t为正整数。

其中，推荐文本生成模型用于根据待推荐对象的关键信息生成推荐文本内容。

示意性的，上述推荐文本生成模型可应用于广告文案生成系统中，广告主可在广告文案生成系统的界面中输入广告对象的关键信息，例如：输入关键词“垃圾袋”、“降价”和显示有垃圾袋的图片，则广告文案生成系统可生成广告文案“这款垃圾袋，终于降价了，真的太划算了！手慢无！”。

综上所述，本申请实施例提供的推荐文本生成模型的训练方法通过候选文本生成模型对样本推荐对象的关键信息进行特征提取，得到关键信息对应的多个模态分别提取的特征表示，然后，对该多个模态分别提取的特征表示进行特征融合，并对融合后的特征表示进行推荐文本预测，从而生成预测推荐文本，最后，根据预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。在对候选文本生成模型进行训练的过程中，对输入模型的关键信息进行多模态的特征提取，使得最后融合的特征表示包含有关键信息在多个模态上的表现，多个模态信息之间进行交叉互补，提高了最终训练得到的推荐文本生成模型生成的推荐文本的多样性。

在一些可选的实施例中，多个样本数据对中包含多种不同类型的样本数据对，不同类型的样本数据对用于训练模型执行不同的推荐文本生成任务，也就是说，待训练的候选推荐文本生成模型为进行多任务学习的模型。图3是本申请实施例提供的一种推荐文本生成模型的训练方法的流程图，以该方法应用于如图1所示的服务器中为例进行说明，该方法包括：

步骤301，获取多个样本数据对。

可选地，多个样本数据对中包括用于训练模型执行至少两种推荐文本生成任务的样本数据对。

示意性的，用于训练模型执行同一推荐文本生成任务的多个样本数据对组成一个样本数据集；通过不同样本数据集中的样本数据对分批次对候选推荐文本生成模型进行联合训练，最后得到能够执行至少两种推荐文本生成任务的推荐文本生成模型。

其中，候选推荐文本生成模型执行不同的推荐文本生成任务，其生成的推荐文本不同；可选地，下面举例三种推荐文本生成任务，分别说明其对应的样本数据对的构建方法：

1、关键词-图像推荐文本生成任务。

其中，关键词-图像推荐文本生成任务是指以关键词为描述重点对样本推荐对象进行推荐性描述的任务。

可选地，多个样本数据对中包括第一样本数据对，第一样本数据对用于执行关键词-图像推荐文本生成任务；则构建样本数据对的方法还包括：

获取第一推荐对象对应的第一推荐内容信息，第一推荐内容信息中包括第一参考推荐文本和第一图像；对第一推荐内容文本进行关键词提取，得到第一关键词；基于第一关键词和第一图像，确定第一样本数据；根据第一样本数据和第一参考推荐文本构建第一样本数据对。

上述第一推荐内容信息是指在历史推荐内容库中的针对第一推荐对象的一条完整的推荐信息，第一推荐内容信息中至少包括第一参考推荐文本和第一图像，其中，第一参考推荐文本是指对第一推荐对象进行推荐的参考描述文本。

其中，第一图像是指显示有第一推荐对象的图像，该第一图像是指单独的一张图片，例如：设计人员设计的对某产品的广告宣传图；或者，该第一图像是指广告宣传视频中的一个视频帧图像，例如：将广告宣传视频的封面视频帧图像(显示有某产品)作为第一图像。

示意性的，以推荐内容信息实现为线上的广告信息为例进行说明，从线上的广告库(即第一预设推荐内容库)中拉取多条广告信息，每条广告信息至少包括广告文案(例如：广告标题、广告宣传语等)和广告图像(例如：广告海报、宣传图、广告宣传视频的封面图等)。

对于每条广告信息，构建一个第一样本数据对，每个第一样本数据对中都包括第一样本数据和参考广告文案，下面对第一样本数据和参考广告文案的确定方法进行示意性说明：

广告信息中的广告文案是模型在训练时的监督信号，即为参考广告文案，确定了模型的参考广告文案后，需要确定模型的输入数据，即第一样本数据；在关键词-图像推荐文本生成任务中，主要是通过输入关键词和图像从而生成推荐文本，示意性的，从广告文案中抽取能够代表该广告文案含义的目标关键词作为模型在训练时的输入关键词(即第一关键词)，并将广告信息中的广告图像作为输入图像(即第一图像)；那么，目标关键词和广告图像即组成了模型的输入数据(即第一样本数据)。

可选地，通过基于词频(term frequency，TF)-逆向文件频率(inverse documentfrequency，IDF)的统计方法从广告文案中抽取能够代表该广告文案含义的目标关键词；那么，对第一推荐内容文本进行关键词提取，得到第一关键词的方法还包括：

对第一参考推荐文本进行分词处理，得到m个候选分词，m为正整数；基于m个候选分词中第z个候选分词在第一参考推荐文本中的出现次数，确定第z个候选分词的词频，第z个候选分词的词频是指第z个候选分词在第一参考推荐文本中出现的频率，z为小于或者等于m的正整数；基于第一推荐文本库中包含有第z个候选分词的推荐文本的数量，确定第z个候选分词的逆推荐文本频率，第一推荐文本库是指包含第一参考推荐文本的推荐文本库，逆推荐文本频率与第一推荐文本库中包含有第z个候选分词的推荐文本数量呈负相关；根据m个候选分词分别对应的词频和逆推荐文本频率，从m个候选分词中确定第一关键词。

其中，第一推荐文本库是根据上述历史推荐内容库(模型的训练数据库)确定的推荐文本库，可选地，抽取历史推荐内容库中的所有推荐文本即可组成第一推荐文本库。示意性的，以推荐内容信息实现为线上的广告信息为例进行说明，第一推荐文本库即为广告信息库中所有广告文案组成的数据库。

可选地，上述对第一参考推荐文本进行分词处理的方法包括基于字符串匹配的方法(例如：正向最大匹配分词算法、逆向最大匹配分词算法、双向最大匹配分词算法、最少切分分词算法等)、基于统计的方法(例如：互信息原理、N元统计模型)等中的至少一种，本申请实施例对分词处理的具体方法不加以限定。

对第一参考推荐文本进行分词处理后，需要各个分词分别对应的词频和逆推荐文本频率，计算第z个候选分词的词频的公式一如下所示：

公式一：

计算第z个候选分词的逆推荐文本频率的公式二如下所示：

公式二：

在一些实施例中，根据m个候选分词分别对应的词频和逆推荐文本频率，从m个候选分词中确定第一关键词的方法，还包括：

基于第z个候选分词对应的词频和逆推荐文本频率之间的乘积，确定第z个候选分词的关键度参数，第z个候选分词的关键度参数用于指示第z个候选分词对第一参考推荐文本的重要程度，第z个候选分词对应的词频和逆推荐文本频率之间的乘积与第z个候选分词的关键度参数呈正相关关系；根据m个候选分词分别对应的关键度参数，从m个候选分词中确定第一关键词。

可选地，得到各个分词分别对应的词频和逆推荐文本频率后，计算各个分词分别对应的词频和逆推荐文本频率之间的乘积，将该乘积作为各个分词分别对应的TF-IDF值；基于m个候选分词分别对应的TF-IDF值，确定m个候选分词分别对应的关键度参数；根据m个候选分词分别对应的关键度参数，从m个候选分词中确定预设数量的第一关键词。

其中，预设数量即为第一关键词的数量，第一关键词的数量可以是一个也可以是多个。示意性的，若第一关键词的数量为1，则从m个候选分词中确定关键度参数最高的候选分词(即TF-IDF值最高的候选分词)作为第一关键词；若第一关键词的数量大于1，则按照关键度参数从大到小的顺序，确定排列在前的预设数量的候选分词为第一关键词。

在一些实施例中，在确定候选分词的词频和逆推荐文本频率的基础上，还可以通过候选分词在第一参考推荐文本中的分布情况确定候选分词的关键度参数，当某个词在文本中分布的较广时，说明该词更能够代表整段文本的内容，即该词对于整个文本的重要程度较高，即关键度参数较高；若某个词在文本中分布较为密集，说明该词可能仅代表文本中某一段落的内容，即该词对于整个文本的重要程度较低，即关键度参数较低；那么，基于第z个候选分词对应的词频和逆推荐文本频率之间的乘积，确定第z个候选分词的关键度参数，还包括：

获取第z个候选分词在第一参考推荐文本中的出现位置；基于第z个候选分词在第一参考推荐文本中的出现位置和第z个候选分词在第一参考推荐文本中的出现次数，确定第z个候选分词的分布系数，第z个候选分词的分布系数用于指示第z个候选分词在第一参考推荐文本中的分布情况；基于第z个候选分词对应的词频和逆推荐文本频率之间的乘积和第z个候选分词的分布系数，确定第z个候选分词的关键度参数。

其中，第z个候选分词在第一参考推荐文本中分布越广，第z个候选分词的分布系数越大。

示意性的，得到m个候选分词分别对应的TF-IDF值和分布系数后，计算m个候选分词分别对应的TF-IDF值和分布系数之间的乘积，将该乘积作为第z个候选分词的关键度参数。

在一些实施例中，在第一样本数据的文本模态的数据中，除了代表第一参考推荐文本的整体文案内容的第一关键词外，还可包括一些文本模态的辅助信息，例如：第一推荐对象所属的行业信息，假设第一推荐对象为薄款羽绒服，则第一推荐对象的行业信息可以是“服装业”。那么，确定第一样本数据的方法还包括：

将第一关键词和第一行业信息进行文本连接，得到第一样本文本；基于第一样本文本和第一图像，确定第一样本数据，其中，第一行业信息用于指示与第一推荐对象相关联的行业类别。

示意性的，对第一样本数据中属于文本模态的数据进行连接，得到第一样本文本；属于文本模态的第一样本文本和属于图像模态的第一图像共同构成了第一样本数据。

2、推荐文本风格转换任务。

其中，文本风格转换任务是指将输入候选推荐文本生成模型的推荐文本改写为指定风格的推荐文本的任务。

可选地，多个样本数据对中包括第二样本数据对，第二样本数据对用于执行推荐文本风格转换任务；则构建样本数据对的方法还包括：

在第二推荐文本库中筛选得到包含目标文本风格关键词的p个候选推荐文本，p个候选推荐文本对应有目标文本风格，p为正整数；根据p个候选推荐文本中第k个推荐文本与第二推荐文本库中除p个候选推荐文本之外的其他推荐文本之间的相似度，从其他推荐文本中确定第k个推荐文本对应的样本推荐文本，k为小于或者等于p的正整数；将第k个推荐文本对应的样本推荐文本作为第二样本数据，以及将第k个推荐文本作为第二参考推荐文本，并根据第二样本数据和第二参考推荐文本构建第二样本数据对。

上述第二推荐文本库是指根据历史推荐内容库(模型的训练数据库)确定的推荐文本库，在该历史推荐内容库内包含有多种风格的推荐内容信息，可选地，抽取历史推荐内容库中的包含不同风格(包括第一文本风格)的推荐文本即可组成第二推荐文本库。

其中，文本风格是指推荐文本的内容的书写风格，例如：对于广告文案来说，可包括规则式文案(即按照固定书写格式撰写的文案)、理想感化风格(例如：同情式、启发式、设身处地式等)、情感诉求风格、论证式风格等，本申请实施例对文本风格的种类和数量不加以限定。

示意性的，确定候选推荐文本生成模型需要转换的目标文本风格后，可在第二推荐文本库中筛选属于此风格的文本作为模型在训练时的监督信号，其中，筛选的方法可通过关键词查找的方法。假设目标文本风格为表达强烈的惊讶情感的文本风格，则目标文本风格的文本中会包含“哇”、“难怪”等关键词，则可将这些关键词作为筛选条件，从第二推荐文本库中筛选得到包含这些关键词的推荐文本作为候选推荐文本，这些候选推荐文本即为模型训练时的监督信号。

在一些实施例中，从第二推荐文本库中筛选属于目标文本风格的文本的方法还包括：将第二推荐文本库中的多个推荐文本输入到文本风格分类模型中；输出得到多个推荐文本分别对应的风格类别，其中，文本风格分类模型为训练好神经网络模型。

可选地，对文本风格分类模型的训练方法进行示意性说明：获取标注有参考文本风格的样本文本；通过候选文本风格分类模型对样本文本进行风格特征和情感特征提取；根据风格特征和情感特征，对样本文本进行风格预测，得到预测文本风格；基于预测文本风格和参考文本风格之间的差异，对候选文本风格分类模型进行训练，得到文本风格分类模型。

确定属于目标文本风格的p个候选推荐文本后，需要在第二推荐文本库中进行第二次筛选，从剩余的推荐文本(除p个候选推荐文本外)中确定与p个候选推荐文本相似度较高的p个样本推荐文本，作为模型在训练时的输入数据。

示意性的，文本相似度的计算方法包括距离(例如：余弦相似度)算法、基于语义匹配的相似度算法等，本申请实施例对文本相似度的计算方法不加以限定。

以余弦相似度算法为例进行说明，确定p个候选推荐文本中第k个候选推荐文本对应的第一向量，以及确定第二推荐文本库中各个剩余推荐文本的分别对应的第二向量；计算第一向量和各个第二向量之间的余弦相似度；将其中相似度最高的第二向量对应的剩余推荐文本作为第k个候选推荐文本对应的样本推荐文本。

3、图像描述推荐文本生成任务。

其中，图像描述推荐文本任务是指以图像显示内容为描述重点对样本推荐对象进行推荐性描述的任务。

可选地，多个样本数据对中包括第三样本数据对，第三样本数据对用于执行图像描述推荐文本生成任务；则构建样本数据对的方法还包括：

获取显示有第二推荐对象的第二图像，以及获取第二图像对应的第三参考推荐文本，第三参考推荐文本是指通过对第二图像进行描述对第二推荐对象进行推荐的参考描述文本；将第二图像作为第三样本数据，并根据第三样本数据和第三参考推荐文本构建第三样本数据对。

示意性的，从历史图像数据集(例如：广告海报数据集等)中获取多个图像作为模型训练时的输入数据，这些图像均标注有对图像显示内容进行描述的推荐文本，例如：显示有“粉色垃圾袋”的推荐文本为“日用家居垃圾袋粉色简约”；可选地，推荐文本的参考标注可通过人工标注完成，则这些参考标注文本即为模型训练时的监督信号。

步骤302，确定多个样本数据对分别对应的任务标识。

其中，任务标识用于指示样本数据对对应的推荐文本生成任务。

不同推荐文本生成任务对应的任务标识不相同。

示意性的，根据多个样本数据对在系统中的保存路径确定多个样本数据对分别对应的任务标识，例如：样本数据对1的保存路径为“C盘/任务1数据集”则表示样本数据对1对应的推荐文本生成任务为关键词-图像推荐文本生成任务，关键词-图像推荐文本生成任务的任务标识可实现为“1”。

步骤303，基于任务标识，通过候选推荐文本生成模型提取关键信息对应的文本模态的文本特征表示。

根据输入候选推荐文本生成模型的关键信息的文本模态包含情况，关键信息对应的文本模态的文本特征表示的确定情况包括以下情况中的至少一种：

情况一：在关键信息中包括文本模态数据的情况下，将任务标识与关键信息中的文本模态数据进行融合，得到融合文本；通过候选推荐文本生成模型提取融合文本对应的融合文本特征表示，将融合文本特征表示作为关键信息对应的文本模态的文本特征表示。

示意性的，以多个样本数据对中包括第一样本数据对，第一样本数据对用于执行关键词-图像推荐文本生成任务为例进行说明，第一样本数据对中包括输入模型的第一样本数据，第一样本数据中包括文本模态的第一关键词和第一行业信息，则将第一关键词和第一行业信息进行连接，得到输入文本序列，例如：通过[KWSEP]对第一关键词和第一行业信息进行连接；将第一样本数据对对应的任务标识作为前缀增加至输入文本序列中，得到目标文本序列；通过候选推荐文本生成模型中的文本编码器对目标文本序列进行文本编码，得到文本特征表示。

情况二：在关键信息中不包括文本模态数据的情况下，通过候选推荐文本生成模型提取任务标识对应的标识特征表示，将标识特征表示作为关键信息对应的文本模态的文本特征表示。

示意性的，以多个样本数据对中包括第三样本数据对，第三样本数据对用于执行图像描述推荐文本生成任务为例进行说明，第三样本数据对中包括输入模型的第三样本数据，第三样本数据中不包括文本模态数据，则直接将任务标识对应的文本序列作为目标文本序列；通过候选推荐文本生成模型中的文本编码器对目标文本序列进行文本编码，得到文本特征表示。

步骤304，通过候选推荐文本生成模型提取关键信息对应的图像模态的图像特征表示。

根据输入候选推荐文本生成模型的关键信息的图像模态包含情况，关键信息对应的图像模态的图像特征表示的确定情况包括以下情况中的至少一种：

情况一：在关键信息中包括图像模态数据的情况下，通过候选推荐文本生成模型提取关键信息中图像模态数据对应的图像特征表示，将关键信息中图像模态数据对应的图像特征表示作为关键信息对应的图像模态的图像特征表示。

示意性的，以多个样本数据对中包括第一样本数据对，第一样本数据对用于执行关键词-图像推荐文本生成任务为例进行说明，第一样本数据对中包括输入模型的第一样本数据，第一样本数据中包括图像模态的第一图像；可选地，将第一图像进行分块，得到多个图像块对应的目标图像序列，通过候选推荐文本生成模型中的图像编码器对多个图像块进行图像编码，得到图像特征表示。

情况二：在关键信息中不包括图像模态数据的情况下，通过候选推荐文本生成模型提取空白图像对应的图像特征表示，将空白图像对应的图像特征表示作为关键信息对应的图像模态的图像特征表示。

示意性的，以多个样本数据对中包括第二样本数据对，第二样本数据对用于执行推荐文本风格转换任务为例进行说明，第二样本数据对中包括输入模型的第二样本数据，第二样本数据中不包括图像模态数据；可选地，对增加的空白图像进行分块，得到多个图像块对应的目标图像序列，通过候选推荐文本生成模型中的图像编码器对多个图像块进行图像编码，得到图像特征表示。

步骤305，对文本特征表示和图像特征表示进行特征融合，得到融合特征表示，并对融合特征表示进行推荐文本预测，生成样本推荐对象对应的预测推荐文本。

示意性的，以基于注意力机制融合文本特征表示和图像特征表示为例进行说明，该步骤包括：基于注意力机制计算得到文本特征表示和图像特征表示分别对应的注意力权重；基于文本特征表示和图像特征表示分别对应的注意力权重，对文本特征表示和图像特征表示进行加权融合，得到融合特征表示。

步骤306，基于预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。

本申请实施例提供的方法，在对候选文本生成模型进行训练的过程中，通过为输入模型的训练数据添加任务标识，实现了一个模型多个任务的范式，即实现了对多任务模型的训练，相较于需要多个模型完成不同的任务的训练方法对，提高了对于在实现多任务时，模型的训练效率。

本申请实施例提供的方法，在关键信息中不包括文本模态数据的情况下，能够通过增加任务标识为模型在训练过程中增加文本模态的表示，使得训练好的模型能够应用于纯图像场景下的推荐内容生成；在关键信息中不包括图像模态数据的情况下，能够通过增加空白图像为模型在训练过程中增加图像模态的表示，使得训练好的模型能够应用于纯文本场景下的推荐内容生成，扩增了推荐文本生成模型应用场景。

本申请实施例提供的方法，通过构建包括关键词和图像的训练数据对，对候选推荐文本生成模型进行训练，使得训练得到的模型能够执行以关键词为描述重点对样本推荐对象进行推荐性描述的任务。

本申请实施例提供的方法，在确定上述关键词时，通过基于TF-IDF的统计方法从推荐文本中抽取能够代表该推荐文本含义的关键词，提高了关键词的确定效率，同时提高了抽取得到的关键词的准确度，从而提高了输入模型的训练数据的质量。

本申请实施例提供的方法，在确定关键词时，在考虑分词对应的TF-IDF值的情况下，还考虑分词在整个文本中的分布情况，进一步提高了抽取得到的关键词的准确度。

本申请实施例提供的方法，构建用于执行关键词-图像推荐文本生成任务的训练数据时，将行业信息增加至文本模态的训练数据中，提高了训练数据的多样性，使得模型在生成推荐文本时能够更加细粒度的生成贴近广告主实际所需的推荐文本。

本申请实施例提供的方法，通过构建包括不同风格推荐文本的训练数据对，对候选推荐文本生成模型进行训练，使得训练得到的模型能够执行对推荐文本进行风格转换的任务。通过构建包括图像和其对应的描述性推荐文本训练数据对，对候选推荐文本生成模型进行训练，使得训练得到的模型能够执行对以图像显示内容为描述重点对样本推荐对象进行推荐性描述的任务。

在一些可选的实施例中，候选推荐文本生成模型实现为自回归模型，预测推荐文本由r个预测单词组成，候选推荐文本生成模型在一次迭代训练过程中会进行r次预测，候选推荐文本生成模型在第j次预测时，得到预测推荐文本中的第j个预测单词，其中，r为正整数，j为小于或者等于r的正整数。图4是本申请实施例提供的一种推荐文本生成模型的训练方法的流程图，以该方法应用于如图1所示的服务器中，且多个样本特征表示包括文本特征表示和图像特征表示为例进行说明，该方法包括：

步骤401，获取多个样本数据对。

可选地，在对候选推荐文本生成模型进行训练时，若多个样本数据对中包括多个不同的推荐文本生成任务分别对应的样本数据对，则在训练时，对于每个梯度更新步骤，随机采样一个数据集(该数据集中的样本数据对用于执行同一推荐文本生成任务)，然后从该数据集中随机采样一个批次的数据，送入候选推荐文本生成模型中对模型参数进行更新。

步骤402，确定多个样本数据对分别对应的任务标识。

示意性的，若每个样本数据集中多个样本数据对对应的任务标识相同，则在指定样本数据集中随机采样一个批次的样本数据对时，只需要确定该批次的样本数据对的任务标识即可。

步骤403，基于任务标识，通过候选推荐文本生成模型提取关键信息对应的文本模态的文本特征表示。

示意性的，请参考图5，其示出了一种候选推荐文本生成模型的模型结构示意图，将已确定的目标文本序列501(请参考步骤303中的目标文本序列确定方法，此处不再赘述)输入到文本编码器502中，可得到文本特征表示。

当输入候选推荐文本生成模型的训练数据用于执行关键词-图像推荐文本生成任务时，目标文本序列包括第一推荐文本、第一行业信息和任务标识；当输入候选推荐文本生成模型的训练数据用于执行推荐文本风格转换任务时，目标文本序列包括第二推荐文本和任务标识；当输入候选推荐文本生成模型的训练数据用于执行图像描述推荐文本任务时，目标文本序列包括任务标识。

其中，文本编码器502可实现为基于Transformer的双向编码表示(BidirectionalEncoder Representation from Transformers，BERT)模型等其他文本特征提取模型，本申请实施例对文本编码器的具体实现模型不加以限定。

步骤404，通过候选推荐文本生成模型提取关键信息对应的图像模态的图像特征表示。

示意性的，请参考图5，其示出了一种候选推荐文本生成模型的模型结构示意图，将已确定的目标图像序列503(请参考步骤304中的目标图像序列确定方法，此处不再赘述)输入到图像编码器504中，可得到图像特征表示。

需要进行说明的是，图5中示出了分别通过文本编码器502和图像编码器504对模型输入的不同模态的数据进行处理的方法；在一些实施例中，还可以通过单个编码器对模型输入的不同模态的数据整体进行编码，即图像和文本可以共享一个特征编码的模型，代替如图5中的两个独立的编码器。

当输入候选推荐文本生成模型的训练数据用于执行关键词-图像推荐文本生成任务时，目标图像序列包括第一图像；当输入候选推荐文本生成模型的训练数据用于执行推荐文本风格转换任务时，目标图像序列为空白图像对应的序列；当输入候选推荐文本生成模型的训练数据用于执行图像描述推荐文本任务时，目标文本序列包括第二图像。

其中，图像编码器504可实现为基于Transformer的视觉(Vision Transformer，ViT)模型等其他图像特征提取模型，本申请实施例对图像编码器的具体实现模型不加以限定。

步骤405，对文本特征表示和图像特征表示进行特征融合，得到融合特征表示。

示意性的，请参考图5，将文本编码器502输出的文本特征表示和图像编码器504输出的图像特征表示输入到特征融合模块505中。在特征融合模块505中，首先，将图像特征表示与文本特征表示进行级联；其次，利用两个线性层和两个自注意力层对混合后的特征进行映射，将样本数据中的图像和文本信息进行充分的融合，从而得到融合特征表示。

步骤406，第t次迭代训练时，将候选推荐文本生成模型的第j次预测结果和融合特征表示输入候选推荐文本生成模型中，确定融合特征表示和第j次预测结果之间的交叉注意力。

上述第j个预测结果用于指示前j-1次候选推荐文本生成模型输出的预测单词，和第j次候选推荐文本生成模型输出的预测单词连接得到的预测单词序列。其中，t为正整数。

本实施例中，候选推荐文本生成模型属于自回归的模型，候选推荐文本生成模型在一次迭代过程中，会进行多次预测，且每次预测只输出一个单词，在该单词产生后，就被添加在之前生成的单词序列后面生成新的单词序列，这个单词序列会成为模型下一次预测的新输入。

也就是说，在本实施例中，t次迭代训练过程中，候选推荐文本生成模型在进行第j次预测时，输入为融合特征表示和前j-1次预测得到的j-1个预测单词序列，输出为第j个预测单词。

可选地，候选推荐文本生成模型中包括解码器模块，则第t次迭代训练时，将候选推荐文本生成模型中的解码器的第j次预测结果和融合特征表示重新输入解码器中，计算融合特征表示和第j次预测结果之间的交叉注意力。

示意性的，第1次预测时，将融合特征表示输入到解码器中，输出单词“i”；第2次预测时，将融合特征表示和单词“i”输入到解码器中，计算融合特征表示和单词“i”之间的交叉注意力，输出单词“have”；第3次预测时，将单词“i”和单词“have”拼接得到单词序列“ihave”，将单词序列“i have”和融合特征表示输入到解码器中，计算融合特征表示和单词序列“i have”之间的交叉注意力，输出单词“a”；第4次预测时，将单词“i”、单词“have”和单词“a”拼接得到单词序列“i have a”，将单词序列“i have a”和融合特征表示输入到解码器中，计算融合特征表示和单词序列“i have a”之间的交叉注意力，输出单词“apple”。

步骤407，基于融合特征表示和第j次预测结果之间的交叉注意力，确定候选推荐文本生成模型的第j+1次预测结果。

示意性的，基于融合特征表示和第j次预测结果之间的交叉注意力，候选推荐文本生成模型中的解码器会生成词典中每个词典词汇被选中作为第j+1个预测单词的概率，也即，解码器的输出为一个概率分布，其中包含词典中每个词典词汇的被选中作为第j+1个预测单词的概率，其中概率最高的词典词汇即为最终解码器最终输出的第j+1个预测单词；最后，将候选推荐文本生成模型的第j+1次预测单词添加在前j个单词组成的第j个单词序列后面，组成的新的单词序列即为候选推荐文本生成模型的第j+1次预测结果。

在一些实施例中，候选推荐文本生成模型中包括n个解码器，n个解码器用于对候选推荐文本生成模型的预测结果进行确定。

在第j+1次预测时，n个解码器共同对候选推荐文本生成模型的第j+1次预测结果进行确定。可选地，候选推荐文本生成模型中还包括门控网络，该门控网络用于确定n个解码器的输出结果的权重。则确定第j+1次预测结果的方法还包括：

基于融合特征表示和第j次预测结果之间的交叉注意力，确定n个解码器分别输出的单词概率分布，单词概率分布用于指示词典中每个词典词汇被选中作为第j+1个预测单词的概率；将融合特征表示输入门控网络中，对融合特征表示进行线性映射，得到n维权重矩阵，n维权重矩阵中第i维向量用于表征n个解码器中第i个解码器输出的单词概率分布的权重，i为小于或者等于n的正整数；基于n维权重矩阵对n个解码器分别输出的单词概率分布进行加权求和，确定候选推荐文本生成模型对应的第j+1个预测单词；将第j+1个预测单词添加在前j个单词组成的第j个单词序列后，得到第j+1个单词序列，将第j+1个单词序列作为候选推荐文本生成模型的第j+1次预测结果。

示意性的，n个解码器分别输出n个关于词典词汇的概率分布，每个解码器对应有一个权重，计算加权求和后的一个关于词典词汇的概率分布，在加权求和后的一个关于词典词汇的概率分布中确定概率最高的词典词汇作为n个解码器最终输出的预测单词，即候选推荐文本生成模型对应的第j+1个预测单词。

示意性的，请参考图5，假设特征融合模型505的输出为emb，任务总数为k(即推荐文本生成任务的任务类型包括k种)，则n个解码器输出的序列为：D(emb)＝{D₁,D₂,…,D_n}，由门控网络506为n个解码器配置权重，其配置的公式三如下所示：

公式三：G(emb)＝NN_gate(emb)∈R^k*

其中，G(emb)用于指示n个解码器对应的权重，NN_gate(emb)∈R^k*的含义为门控网络506对应的n维权重矩阵，其中，执行第j个任务时，第i个解码器对应的权重为权重矩阵R^k*的第j行第i列对应的数值(即G(emb)_j,)。

则任务j对应的输出为即第j个任务的输出为y_j，输出为y_j是指n个解码器输出数据的加权和，其中，第i个解码器的输出数据D_i和第j个任务上第i个解码器对应的权重G(emb)_j,进行加权。

其中，n个编码器可实现为预训练语言(Generative Pre-Training，GPT-2)模型等其他自回归的文本解码模型，本申请实施例对此不加以限定。

步骤408，基于候选推荐文本生成模型的第r次预测结果，生成样本推荐对象对应的预测推荐文本。

示意性的，每一次进行预测时，候选推荐文本生成模型都会生成一个新的预测单词，将最后一次预测得到的新单词和前面预测得到的r-1个单词按照预测顺序进行连接，得到的单词序列即为样本推荐对象对应的预测推荐文本。

步骤409，基于预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。

示意性的，在第t次迭代训练过程中，通过计算得到的目标损失对应的取值对本次迭代中的候选文本生成模型进行训练，得到第t+1次迭代中的候选文本生成模型，并继续进行后续训练，当目标损失收敛或者达到预设训练次数，则停止训练，此时得到的模型即为推荐文本生成模型。

本申请实施例提供的方法，通过自回归模型生成预测推荐文本，强化了生成的预测推荐文本之间的时序关系，提高了预测推荐文本上下文之间的合理性，从而提高了预测推荐文本的准确度。

本申请实施例提供的方法，通过n个解码器共同对候选推荐文本生成模型的预测结果进行确定，相较于单个解码器输出预测结果的方法，增强模型对于推荐文本的生成能力。

示意性的，请参考图6，其示出了一种广告文案生成模型的应用示意图，该广告文案生成模型可搭载在广告主使用的广告制作系统中，广告主可在广告制作系统选择需要执行的任务类型(即模型需要执行的广告文案生成任务类型)；假设广告主选择关键词-图像文案生成任务对应的任务类型，并输入目标图像601和目标文本602，广告制作系统会将目标图像601和目标文本602和广告主选择的任务类型标识(即关键词-图像文案生成任务对应的任务标识)发送至广告文案生成模型604，广告文案生成模型604收到目标图像601和目标文本602和广告主选择的任务类型(即关键词-图像文案生成任务对应的任务标识)后，会对其进行编码和文案预测，从而生成广告文案“这款垃圾袋，终于降价了，真的太划算了！手慢无！”。

若广告主想要对已有的普通文案进行风格转换，则可以将普通文案，例如：文案603“这款垃圾袋，终于降价了，真的太划算了！手慢无！”输入到广告制作系统中，并选择进行文案风格转换对应的任务类型；广告制作系统会将该文案603和广告主选择的任务类型标识(即文案风格转换任务对应的任务标识)发送至广告文案生成模型604，广告文案生成模型604收到文案603和广告主选择的任务类型标识(即文案风格转换任务对应的任务标识)，会对其进行编码和文案预测，从而生成广告文案“老板疯了！纯棉睡衣！20来块包邮上新就卖爆了！”。

广告主还可以基于简单的图片生成描述性的广告文案。广告主可选择图像描述文案任务对应的任务类型，并输入目标图像605，广告制作系统会将目标图像605和广告主选择的任务类型标识(即图像描述文案生成任务对应的任务标识)发送至广告文案生成模型604，广告文案生成模型604收到目标图像605和广告主选择的任务类型标识(即图像描述文案生成任务对应的任务标识)后，会对其进行编码和文案预测，从而生成广告文案“日用家居垃圾袋粉色简约”。

图7是本申请一个示例性实施例提供的推荐文本生成模型的训练装置的结构框图，如图7所示，该装置包括如下部分：

数据获取模块700，用于获取多个样本数据对，所述样本数据对中包括样本推荐对象的关键信息和参考推荐文本，所述参考推荐文本是指对所述样本推荐对象进行推荐的参考描述文本；

特征提取模块710，用于通过候选文本生成模型对所述样本推荐对象的关键信息进行特征提取，得到所述关键信息对应的多个样本特征表示，所述多个样本特征表示中包括对所述关键信息对应的多个模态分别提取得到的特征表示；

特征融合模块720，用于对所述多个样本特征表示进行特征融合，得到融合特征表示，并对所述融合特征表示进行推荐文本预测，生成所述样本推荐对象对应的预测推荐文本，所述预测文案是指以所述样本推荐对象为推荐目标预测得到的描述文本；

模型训练模块730，用于基于所述预测推荐文本和所述参考推荐文本之间的差异，对所述候选文本生成模型进行训练，得到所述推荐文本生成模型，所述推荐文本生成模型用于根据待推荐对象的关键信息生成推荐文本内容。

请参考图8，在一些实施例中，所述多个样本特征表示包括文本特征表示和图像特征表示；所述特征提取模块710，包括：

确定单元711，用于确定多个样本数据对分别对应的任务标识；

所述特征提取模块710，还用于基于所述任务标识，通过所述候选推荐文本生成模型提取所述关键信息对应的文本模态的文本特征表示；

所述特征提取模块710，还用于通过所述候选推荐文本生成模型提取所述关键信息对应的图像模态的图像特征表示。

在一些实施例中，所述特征提取模块710，还用于在所述关键信息中包括文本模态数据的情况下，将所述任务标识与所述关键信息中的文本模态数据进行融合，得到融合文本；通过所述候选推荐文本生成模型提取所述融合文本对应的融合文本特征表示，将所述融合文本特征表示作为所述关键信息对应的文本模态的文本特征表示；所述特征提取模块710，还用于在所述关键信息中不包括文本模态数据的情况下，通过所述候选推荐文本生成模型提取所述任务标识对应的标识特征表示，将所述标识特征表示作为所述关键信息对应的文本模态的文本特征表示。

在一些实施例中，所述特征提取模块710，还用于在所述关键信息中包括图像模态数据的情况下，通过所述候选推荐文本生成模型提取所述关键信息中图像模态数据对应的图像特征表示，将所述关键信息中图像模态数据对应的图像特征表示作为所述关键信息对应的图像模态的图像特征表示；所述特征提取模块710，还用于在所述关键信息中不包括图像模态数据的情况下，通过所述候选推荐文本生成模型提取空白图像对应的图像特征表示，将所述空白图像对应的图像特征表示作为所述关键信息对应的图像模态的图像特征表示。

在一些实施例中，所述特征提取模块710，所述预测推荐文本由r个预测单词组成，所述候选推荐文本生成模型在一次迭代训练过程中会进行r次预测，所述候选推荐文本生成模型在第j次预测时，得到预测推荐文本中的第j个预测单词，其中，r为正整数，j为小于或者等于r的正整数；所述特征融合模块720，包括：

预测单元721，用于第t次迭代训练时，将所述候选推荐文本生成模型的第j次预测结果和所述融合特征表示输入所述候选推荐文本生成模型中，确定所述融合特征表示和所述第j次预测结果之间的交叉注意力，所述第j次预测结果用于指示前j-1次所述候选推荐文本生成模型输出的预测单词，和第j次所述候选推荐文本生成模型输出的预测单词连接得到的预测单词序列，其中，t为正整数；

所述预测单元721，还用于基于所述融合特征表示和所述第j次预测结果之间的交叉注意力，确定所述候选推荐文本生成模型的第j+1次预测结果；

所述预测单元721，还用于基于所述候选推荐文本生成模型的第r次预测结果，生成所述样本推荐对象对应的预测推荐文本。

在一些实施例中，所述候选推荐文本生成模型中包括n个解码器和门控网络，所述n个解码器用于对所述候选推荐文本生成模型的预测结果进行确定，所述门控网络用于确定所述n个解码器的输出结果的权重，n为正整数；所述预测单元721，还用于所述基于所述融合特征表示和所述第j次预测结果之间的交叉注意力，确定所述候选推荐文本生成模型的第j+1次预测结果，包括：所述预测单元721，还用于基于所述融合特征表示和所述第j次预测结果之间的交叉注意力，确定所述n个解码器分别输出的单词概率分布，所述单词概率分布用于指示词典中每个词典词汇被选中作为第j+1个预测单词的概率；所述预测单元721，还用于将所述融合特征表示输入所述门控网络中，对所述融合特征表示进行线性映射，得到n维权重矩阵，所述n维权重矩阵中第i维向量用于表征所述n个解码器中第i个解码器输出的单词概率分布的权重，i为小于或者等于n的正整数；所述预测单元721，还用于基于所述n维权重矩阵对所述n个解码器分别输出的单词概率分布进行加权求和，确定所述候选推荐文本生成模型对应的第j+1个预测单词；所述预测单元721，还用于将所述第j+1个预测单词添加在前j个单词组成的第j个单词序列后，得到第j+1个单词序列，将所述第j+1个单词序列作为候选推荐文本生成模型的第j+1次预测结果。

在一些实施例中，所述多个样本数据对中包括第一样本数据对，所述第一样本数据对用于执行关键词-图像推荐文本生成任务，所述关键词-图像推荐文本生成任务是指以关键词为描述重点对所述样本推荐对象进行推荐性描述的任务；所述数据获取模块700，还用于获取第一推荐对象的第一推荐内容信息，所述第一推荐内容信息中包括第一参考推荐文本和第一图像，所述第一参考推荐文本是指对所述第一推荐对象进行推荐的参考描述文本，所述第一图像是指显示有所述第一推荐对象的图像；所述数据获取模块700，还包括：

提取单元701，用于对所述第一参考推荐文本进行关键词提取，得到第一关键词；

所述数据获取模块700，还用于基于所述第一关键词和所述第一图像，确定第一样本数据；

所述数据获取模块700，还用于根据所述第一样本数据和所述第一参考推荐文本构建所述第一样本数据对。

在一些实施例中，所述提取单元701，用于对所述第一参考推荐文本进行分词处理，得到m个候选分词，m为正整数；所述提取单元701，用于基于所述m个候选分词中第z个候选分词在所述第一参考推荐文本中的出现次数，确定所述第z个候选分词的词频，所述第z个候选分词的词频是指所述第z个候选分词在所述第一参考推荐文本中出现的频率，z为小于或者等于m的正整数；所述提取单元701，用于基于第一推荐文本库中包含有所述第z个候选分词的推荐文本的数量，确定所述第z个候选分词的逆推荐文本频率，所述第一推荐文本库是指包含所述第一参考推荐文本的推荐文本库，所述逆推荐文本频率与所述第一推荐文本库中包含有所述第z个候选分词的推荐文本数量呈负相关；所述提取单元701，用于根据所述m个候选分词分别对应的词频和逆推荐文本频率，从所述m个候选分词中确定所述第一关键词。

在一些实施例中，所述提取单元701，用于基于所述第z个候选分词对应的词频和逆推荐文本频率之间的乘积，确定所述第z个候选分词的关键度参数，所述第z个候选分词的关键度参数用于指示所述第z个候选分词对所述第一参考推荐文本的重要程度，所述第z个候选分词对应的词频和逆推荐文本频率之间的乘积与所述第z个候选分词的关键度参数呈正相关关系；所述提取单元701，用于根据所述m个候选分词分别对应的关键度参数，从所述m个候选分词中确定所述第一关键词。

在一些实施例中，所述提取单元701，用于获取所述第z个候选分词在所述第一参考推荐文本中的出现位置；所述提取单元701，用于基于所述第z个候选分词在第一参考推荐文本中的出现位置和所述第z个候选分词在所述第一参考推荐文本中的出现次数，确定所述第z个候选分词的分布系数，所述第z个候选分词的分布系数用于指示所述第z个候选分词在所述第一参考推荐文本中的分布情况；所述提取单元701，用于基于所述第z个候选分词对应的词频和逆推荐文本频率之间的乘积和所述第z个候选分词的分布系数，确定所述第z个候选分词的关键度参数。

在一些实施例中，所述第一推荐内容信息中还包括第一行业信息，所述第一行业信息用于指示与所述第一推荐对象相关联的行业类别；所述数据获取模块700，还用于将所述第一关键词和所述第一行业信息进行文本连接，得到第一样本文本；所述数据获取模块700，还用于基于所述第一样本文本和所述第一图像，确定所述第一样本数据。

在一些实施例中，所述多个样本数据对中包括第二样本数据对，所述第二样本数据对用于执行推荐文本风格转换任务，所述文本风格转换任务是指将输入所述候选推荐文本生成模型的推荐文本改写为指定风格的推荐文本的任务；所述数据获取模块700，包括：

筛选单元702，用于在第二推荐文本库中筛选得到包含目标文本风格关键词的p个候选推荐文本，所述p个候选推荐文本对应有目标文本风格，p为正整数；

所述数据获取模块700，用于根据所述p个候选推荐文本中第k个候选推荐文本与所述第二推荐文本库中除所述p个候选推荐文本之外的其他推荐文本之间的相似度，从所述其他推荐文本中确定所述第k个候选推荐文本对应的样本推荐文本；

所述数据获取模块700，用于将所述第k个候选推荐文本对应的样本推荐文本作为第二样本数据，以及将所述第k个候选推荐文本作为第二参考推荐文本，并根据所述第二样本数据和所述第二参考推荐文本构建所述第二样本数据对。

在一些实施例中，所述多个样本数据对中包括第三样本数据对，所述第三样本数据对用于执行图像描述推荐文本生成任务，所述图像描述推荐文本任务是指以图像显示内容为描述重点对所述样本推荐对象进行推荐性描述的任务；所述数据获取模块700，用于获取显示有第二推荐对象的第二图像，以及获取所述第二图像对应的第三参考推荐文本，所述第三参考推荐文本是指通过对所述第二图像进行描述对所述第二推荐对象进行推荐的参考描述文本；所述数据获取模块700，用于将所述第二图像作为第三样本数据，并根据所述第三样本数据和所述第三参考推荐文本构建所述第三样本数据对。

综上所述，本申请实施例提供的推荐文本生成模型的训练装置通过候选文本生成模型对样本推荐对象的关键信息进行特征提取，得到关键信息对应的多个模态分别提取的特征表示，然后，对该多个模态分别提取的特征表示进行特征融合，并对融合后的特征表示进行推荐文本预测，从而生成预测推荐文本，最后，根据预测推荐文本和参考推荐文本之间的差异，对候选文本生成模型进行训练，得到推荐文本生成模型。在对候选文本生成模型进行训练的过程中，对输入模型的关键信息进行多模态的特征提取，使得最后融合的特征表示包含有关键信息在多个模态上的表现，多个模态信息之间进行交叉互补，提高了最终训练得到的推荐文本生成模型生成的推荐文本的多样性。

需要说明的是：上述实施例提供的推荐文本生成模型的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的推荐文本生成模型的训练装置与推荐文本生成模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9示出了本申请一个示例性实施例提供的计算机设备900的结构框图。该计算机设备900可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的推荐文本生成模型的训练方法。

在一些实施例中，计算机设备900还可选包括其他组件，本领域技术人员可以理解，图9中示出的结构并不构成对计算机设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述实施例中任一所述的推荐文本生成模型的训练方法。

可选的，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种推荐文本生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多个样本特征表示包括文本特征表示和图像特征表示；

所述通过候选文本生成模型对所述样本推荐对象的关键信息进行特征提取，得到所述关键信息对应的多个样本特征表示，包括：

确定多个样本数据对分别对应的任务标识；

基于所述任务标识，通过所述候选推荐文本生成模型提取所述关键信息对应的文本模态的所述文本特征表示；

通过所述候选推荐文本生成模型提取所述关键信息对应的图像模态的所述图像特征表示。

3.根据权利要求2所述的方法，其特征在于，所述基于所述任务标识，通过所述候选推荐文本生成模型提取所述关键信息对应的文本模态的文本特征表示，包括：

在所述关键信息中包括文本模态数据的情况下，将所述任务标识与所述关键信息中的文本模态数据进行融合，得到融合文本；通过所述候选推荐文本生成模型提取所述融合文本对应的融合文本特征表示，将所述融合文本特征表示作为所述关键信息对应的文本模态的文本特征表示；

在所述关键信息中不包括文本模态数据的情况下，通过所述候选推荐文本生成模型提取所述任务标识对应的标识特征表示，将所述标识特征表示作为所述关键信息对应的文本模态的文本特征表示。

4.根据权利要求2所述的方法，其特征在于，所述通过所述候选推荐文本生成模型提取所述关键信息对应的图像模态的图像特征表示，包括：

在所述关键信息中包括图像模态数据的情况下，通过所述候选推荐文本生成模型提取所述关键信息中图像模态数据对应的图像特征表示，将所述关键信息中图像模态数据对应的图像特征表示作为所述关键信息对应的图像模态的图像特征表示；

在所述关键信息中不包括图像模态数据的情况下，通过所述候选推荐文本生成模型提取空白图像对应的图像特征表示，将所述空白图像对应的图像特征表示作为所述关键信息对应的图像模态的图像特征表示。

5.根据权利要求1至4任一所述的方法，其特征在于，所述预测推荐文本由r个预测单词组成，所述候选推荐文本生成模型在一次迭代训练过程中会进行r次预测，所述候选推荐文本生成模型在第j次预测时，得到预测推荐文本中的第j个预测单词，其中，r为正整数，j为小于或者等于r的正整数；

所述对所述融合特征表示进行推荐文本预测，生成所述样本推荐对象对应的预测推荐文本，包括：

第t次迭代训练时，将所述候选推荐文本生成模型的第j次预测结果和所述融合特征表示输入所述候选推荐文本生成模型中，确定所述融合特征表示和所述第j次预测结果之间的交叉注意力，所述第j次预测结果用于指示前j-1次所述候选推荐文本生成模型输出的预测单词，和第j次所述候选推荐文本生成模型输出的预测单词连接得到的预测单词序列，其中，t为正整数；

基于所述融合特征表示和所述第j次预测结果之间的交叉注意力，确定所述候选推荐文本生成模型的第j+1次预测结果；

基于所述候选推荐文本生成模型的第r次预测结果，生成所述样本推荐对象对应的预测推荐文本。

6.根据权利要求5所述的方法，其特征在于，所述候选推荐文本生成模型中包括n个解码器和门控网络，所述n个解码器用于对所述候选推荐文本生成模型的预测结果进行确定，所述门控网络用于确定所述n个解码器的输出结果的权重，n为正整数；

所述基于所述融合特征表示和所述第j次预测结果之间的交叉注意力，确定所述候选推荐文本生成模型的第j+1次预测结果，包括：

基于所述融合特征表示和所述第j次预测结果之间的交叉注意力，确定所述n个解码器分别输出的单词概率分布，所述单词概率分布用于指示词典中每个词典词汇被选中作为第j+1个预测单词的概率；

将所述融合特征表示输入所述门控网络中，对所述融合特征表示进行线性映射，得到n维权重矩阵，所述n维权重矩阵中第i维向量用于表征所述n个解码器中第i个解码器输出的单词概率分布的权重，i为小于或者等于n的正整数；

基于所述n维权重矩阵对所述n个解码器分别输出的单词概率分布进行加权求和，确定所述候选推荐文本生成模型对应的第j+1个预测单词；

将所述第j+1个预测单词添加在前j个单词组成的第j个单词序列后，得到第j+1个单词序列，将所述第j+1个单词序列作为候选推荐文本生成模型的第j+1次预测结果。

7.根据权利要求1至4任一所述的方法，其特征在于，所述多个样本数据对中包括第一样本数据对，所述第一样本数据对用于执行关键词-图像推荐文本生成任务，所述关键词-图像推荐文本生成任务是指以关键词为描述重点对所述样本推荐对象进行推荐性描述的任务；

所述获取多个样本数据对，包括：

获取第一推荐对象的第一推荐内容信息，所述第一推荐内容信息中包括第一参考推荐文本和第一图像，所述第一参考推荐文本是指对所述第一推荐对象进行推荐的参考描述文本，所述第一图像是指显示有所述第一推荐对象的图像；

对所述第一参考推荐文本进行关键词提取，得到第一关键词；

基于所述第一关键词和所述第一图像，确定第一样本数据；

根据所述第一样本数据和所述第一参考推荐文本构建所述第一样本数据对。

8.根据权利要求7所述的方法，其特征在于，所述对所述第一参考推荐文本进行关键词提取，得到第一关键词，包括：

对所述第一参考推荐文本进行分词处理，得到m个候选分词，m为正整数；

基于所述m个候选分词中第z个候选分词在所述第一参考推荐文本中的出现次数，确定所述第z个候选分词的词频，所述第z个候选分词的词频是指所述第z个候选分词在所述第一参考推荐文本中出现的频率，z为小于或者等于m的正整数；

基于第一推荐文本库中包含有所述第z个候选分词的推荐文本的数量，确定所述第z个候选分词的逆推荐文本频率，所述第一推荐文本库是指包含所述第一参考推荐文本的推荐文本库，所述逆推荐文本频率与所述第一推荐文本库中包含有所述第z个候选分词的推荐文本数量呈负相关；

根据所述m个候选分词分别对应的词频和逆推荐文本频率，从所述m个候选分词中确定所述第一关键词。

9.根据权利要求8所述的方法，其特征在于，所述根据所述m个候选分词分别对应的词频和逆推荐文本频率，从所述m个候选分词中确定所述第一关键词，包括：

基于所述第z个候选分词对应的词频和逆推荐文本频率之间的乘积，确定所述第z个候选分词的关键度参数，所述第z个候选分词的关键度参数用于指示所述第z个候选分词对所述第一参考推荐文本的重要程度，所述第z个候选分词对应的词频和逆推荐文本频率之间的乘积与所述第z个候选分词的关键度参数呈正相关关系；

根据所述m个候选分词分别对应的关键度参数，从所述m个候选分词中确定所述第一关键词。

10.根据权利要求9所述的方法，其特征在于，所述基于所述第z个候选分词对应的词频和逆推荐文本频率之间的乘积，确定所述第z个候选分词的关键度参数，包括：

获取所述第z个候选分词在所述第一参考推荐文本中的出现位置；

基于所述第z个候选分词在第一参考推荐文本中的出现位置和所述第z个候选分词在所述第一参考推荐文本中的出现次数，确定所述第z个候选分词的分布系数，所述第z个候选分词的分布系数用于指示所述第z个候选分词在所述第一参考推荐文本中的分布情况；

基于所述第z个候选分词对应的词频和逆推荐文本频率之间的乘积和所述第z个候选分词的分布系数，确定所述第z个候选分词的关键度参数。

11.根据权利要求1至4任一所述的方法，其特征在于，所述多个样本数据对中包括第二样本数据对，所述第二样本数据对用于执行推荐文本风格转换任务，所述文本风格转换任务是指将输入所述候选推荐文本生成模型的推荐文本改写为指定风格的推荐文本的任务；

所述获取多个样本数据对，包括：

在第二推荐文本库中筛选得到包含目标文本风格关键词的p个候选推荐文本，所述p个候选推荐文本对应有目标文本风格，p为正整数；

根据所述p个候选推荐文本中第k个候选推荐文本与所述第二推荐文本库中除所述p个候选推荐文本之外的其他推荐文本之间的相似度，从所述其他推荐文本中确定所述第k个候选推荐文本对应的样本推荐文本；

将所述第k个候选推荐文本对应的样本推荐文本作为第二样本数据，以及将所述第k个候选推荐文本作为第二参考推荐文本，并根据所述第二样本数据和所述第二参考推荐文本构建所述第二样本数据对。

12.根据权利要求1至4任一所述的方法，其特征在于，所述多个样本数据对中包括第三样本数据对，所述第三样本数据对用于执行图像描述推荐文本生成任务，所述图像描述推荐文本任务是指以图像显示内容为描述重点对所述样本推荐对象进行推荐性描述的任务；

所述获取多个样本数据对，包括：

获取显示有第二推荐对象的第二图像，以及获取所述第二图像对应的第三参考推荐文本，所述第三参考推荐文本是指通过对所述第二图像进行描述对所述第二推荐对象进行推荐的参考描述文本；

将所述第二图像作为第三样本数据，并根据所述第三样本数据和所述第三参考推荐文本构建所述第三样本数据对。

13.一种推荐文本生成模型的训练装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至12任一所述的推荐文本生成模型的训练方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至12任一所述的推荐文本生成模型的训练方法。