CN115984874A

CN115984874A - 文本生成方法、装置、电子设备及存储介质

Info

Publication number: CN115984874A
Application number: CN202211635358.2A
Authority: CN
Inventors: 唐霞; 李小超; 谢水庚; 何伟
Original assignee: Beijing Casicloud Co ltd
Current assignee: Beijing Casicloud Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-18

Abstract

本发明提供一种文本生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，该方法包括：获取目标对象的初始文本和目标对象的图像；将初始文本和图像输入至多模态文本生成模型，得到多模态文本生成模型输出的目标对象的目标文本；多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成目标对象的目标文本。本发明提供的方法，通过多模态文本生成模型根据输入的目标对象的多模态信息，实现了目标对象的目标文本的生成，提升了目标文本生成的效率和全面性，进而提升用户体验。

Description

文本生成方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本生成方法、装置、电子设备及存储介质。

背景技术

商品的营销文案是商品营销管理的重要组成部分，旨在为潜在客户提供商品的关键信息。

相关技术中，通常是使用单模态信息作为输入，比如根据文本生成文本，输入的单模态信息较为单一，使得生成的商品营销文本信息不能够全面反应商品的关键信息，用户不能够全面了解商品的属性，导致商品的销量低。

发明内容

本发明提供一种文本生成方法、装置、电子设备及存储介质，用以解决现有技术中商品的销量低的问题。

本发明提供一种文本生成方法，包括：

获取目标对象的初始文本和所述目标对象的图像；

将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本。

根据本发明提供的一种文本生成方法，所述多模态文本生成模型包括：全局特征提取模块、局部特征提取模块、编码器和解码器，所述将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本，包括：

将所述图像输入至所述全局特征提取模块，得到所述全局特征提取模块输出的所述图像的全局特征；所述全局特征用于对所述编码器和所述解码器的隐藏层进行初始化；

将所述图像输入至所述局部特征提取模块，得到所述局部特征提取模块输出的所述图像的局部特征；所述局部特征用于生成图像上下文向量；

将所述初始文本和所述局部特征输入至所述编码器，得到所述编码器输出的文本编码向量和图像编码向量；

将所述文本编码向量和所述图像编码向量输入至所述解码器，得到所述解码器输出的文本解码序列和图像解码序列；

基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列，确定所述目标对象的所述目标文本。

根据本发明提供的一种文本生成方法，所述多模态文本生成模型还包括：注意力模块、词汇分布模块和单词分布模块，所述基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列，确定所述目标对象的所述目标文本，包括：

将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块，得到所述注意力模块输出的加权融合上下文向量；

将所述文本解码序列输入至所述词汇分布模块，得到所述词汇分布模块输出的所述文本解码序列中每个词对应的概率；

基于所述加权融合上下文向量、所述文本解码序列和所述图像解码序列，确定控制参数；

将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块，得到所述单词分布模块输出的目标单词；

基于所述目标单词，生成所述目标对象的目标文本。

根据本发明提供的一种文本生成方法，所述将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块，得到所述注意力模块输出的加权融合上下文向量，包括：

将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块，得到文本上下文向量和图像上下文向量；

将所述文本上下文向量和所述图像上下文向量进行加权融合，得到所述加权融合上下文向量。

根据本发明提供的一种文本生成方法，所述将所述文本上下文向量和所述图像上下文向量进行加权融合，得到所述加权融合上下文向量，包括：

将所述文本上下文向量和所述图像上下文向量，采用公式(1)进行加权融合，得到所述加权融合上下文向量；

其中，

表示所述加权融合上下文向量，

表示t时间步所述文本上下文向量c_t的权重，

表示t时间步所述图像上下文向量

的权重，W_m和V_m表示神经网络的权重。

根据本发明提供的一种文本生成方法，所述将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块，得到所述单词分布模块输出的目标单词，包括：

将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入所述单词分布模块，得到所述目标单词生成的概率分布；

基于所述概率分布，确定所述目标单词。

本发明还提供一种文本生成装置，包括：

获取模块，用于获取目标对象的初始文本和所述目标对象的图像；

文本生成模块，用于将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本生成方法。

本发明提供的文本生成方法、装置、电子设备及存储介质，通过获取目标对象的初始文本和所述目标对象的图像；将初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本，通过多模态文本生成模型根据输入的目标对象的多模态信息，实现了目标对象的目标文本的生成，提升了目标文本生成的效率和全面性，进而提升用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术提供的端到端模型的结构示意图；

图2是现有技术提供的PGN模型的结构示意图；

图3是本发明提供的文本生成方法的流程示意图；

图4是本发明提供的多模态文本生成模型的结构示意图；

图5是本发明提供的文本生成装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于更加清晰地理解本申请各实施例，首先对一些相关的背景知识进行如下介绍。

一、基线(baseline)模型：端到端(Sequence to Sequence，Seq2Seq)模型

(1)网络结构

Seq2Seq模型是指针生成网络基线模型，由编码器(Encoder)-解码器(Decoder)组成的网络结构，其中，Encoder与Decoder端均由循环神经网络(Recurrent NeuralNetwork，RNN)组成。图1是现有技术提供的端到端模型的结构示意图，如图1所示，在Encoder端将输入的序列x1、x2和x3转换成固定长度的向量，在Decoder端将Encoder输出的向量转换成需要的序列y1、y2和y3。Encoder与Decoder端均为双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)结构。

(2)注意力(Attention)机制

为了解决Seq2Seq模型中长程信息丢失的问题，在Seq2Seq模型中引入Attention机制。使用归一化(softmax)函数计算用于衡量Encoder端的隐藏层与Decoder端的隐藏层之间的关键性，其计算采用公式(2)和公式(3)表示，其中：

其中，

表示Decoder第t时间步对Decoder第i时间步的关注程度，即通过Decoder的隐藏层与Encoder的隐藏层相联系计算的权重，h_i表示Encoder的第i时间步的隐藏层状态，s_t表示Decoder的第t时间步的隐藏层状态，v、W_h和W_s表示可学习参数，T表示转置，b_attn表示神经网络的偏差，softmax是衡量Decoder的隐藏层与Encoder的隐藏层的相关性的归一化函数，atten^t表示t时间步每个Encoder的隐藏层状态对应的权重。将每个权重与隐藏层向量组合成带权重的上下文向量c_t，其公式为：

二、指针生成网络(Pointer Generator Networks，PGN)模型

(1)网络结构

为了解决生成过程中的未登录词(Out-Of-Vocabulary，OOV)问题，在带有Attention机制的Seq2Seq模型基础上，加入指针网络和覆盖(coverage)机制，构成指针生成网络模型(Pointer-Generator Networks，PGN)，如图2所示，图2是现有技术提供的PGN模型的结构示意图。

在PGN模型中，词汇表中所有单词的概率分布P_vocab根据以下公式计算：

其中，V′、V、b和b′表示可学习参数。

PGN模型的损失函数是每个时间步的目标词的交叉熵的平均值，公式如下：

其中，loss表示损失值，T表示总的时间步数量，w_t表示第t时间步的目标词，P(w_t)表示第t时间步目标词的概率。

PGN模型既可以复制源文本的文章词汇，也可以在词表中生成文字，由参数P_gen(P_gen∈[0,1])确定复制源文本的文章词汇和词表中生成汉字等两者的比例，P_gen的值是由上下文向量c_t、Encoder与Decoder共同控制，其公式为：

其中，σ表示sigmoid函数，

和

表示可学习参数，c_t表示上下文向量，s_h表示Decoder在t时间步的隐藏层状态，x_{d_input}表示Decoder端的输入向量，b_ptr是偏置项。

P_gen决定了从词表中生成汉字的概率与从源文本复制文章词汇的概率。在文本摘要生成任务中，让扩展词汇表表示词汇表的联合，以及源文档中出现的所有单词，得到以下扩展词汇表的概率分布，即最终单词的概率分布公式如下：

(2)Coverage机制

为解决文本生成中存在的重复生成问题，在PGN模型中引入Coverage机制，引入Coverage向量(Vector)对所生成文本中重复的词进行惩罚，降低文本生成中的重复值，其计算公式为：

引入Coverage机制后，Decoder解码阶段存在时间步t的上一时间步t-1的隐藏层状态与Encoder编码阶段的输出做权重运算，上述公式(2)将改为如下所示：

其中，W_Coverage表示一个长度与v相同的科学系参数向量。

PGN模型总的损失函数表示为：

其中，λ表示超参数。

图3是本发明提供的文本生成方法的流程示意图，如图3所示，该方法包括步骤301-步骤302；其中，

步骤301，获取目标对象的初始文本和所述目标对象的图像；

步骤302，将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本。

需要说明的是，本发明提供的文本生成方法适用于生成文本的场景中，例如，营销方案的生成。该方法的执行主体可以为文本生成装置，例如电子设备、或者该文本生成装置中的用于执行文本生成方法的控制模块。

具体地，目标对象可以为被营销的任意物品，例如，目标对象为耳机；初始文本是指能够简要描述目标对象的文本，例如，滚动轴承设计；目标对象的图像是指拍摄的目标对象在某一角度下的图像，目标文本是指根据目标对象的初始文本和图像而得到的最终文本，例如，能够完整描述目标对象的营销方案。

进一步地，获取的目标对象的初始文本和目标对象的图像之后，将初始文本和图像输入至多模态文本生成模型，得到多模态文本生成模型输出的目标对象的目标文本。需要说明的是，多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成目标对象的目标文本。

本发明提供的文本生成方法，通过获取目标对象的初始文本和所述目标对象的图像；将初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本，通过多模态文本生成模型根据输入的目标对象的多模态信息，实现了目标对象的目标文本的生成，提升了目标文本生成的效率和全面性，进而提升用户体验。

可选地，所述多模态文本生成模型包括：全局特征提取模块、局部特征提取模块、编码器和解码器，上述步骤302的具体实现方式包括以下步骤：

1)将所述图像输入至所述全局特征提取模块，得到所述全局特征提取模块输出的所述图像的全局特征；所述全局特征用于对所述编码器和所述解码器的隐藏层进行初始化。

需要说明的是，对于上述描述的PGN模型，Encoder端的初始双向隐藏层h₀与h_n+1的初始化为0向量，Decoder端的初始隐藏层s₀用Encoder端最后一层隐藏层h₁与h_n初始化，则

其中，W_d和b_w表示可学习参数。

进一步地，将图像输入至全局特征提取模块，全局特征提取模块采用残差网络101(ResNet-101)模型最后一层的池化层抽取高维图像特征q作为全局图像特征，得到全局特征提取模块输出的图像的全局特征；其中，全局特征用于对编码器和解码器的隐藏层进行初始化。

h₀＝tanh(We1q+b_e1)(14)

h_n+1＝tanh(W_e2q+b_e2)(15)

其中，W_e1、b_e1、W_e2、b_e2、W_f、V_f和b_f均表示可学习参数。

2)将所述图像输入至所述局部特征提取模块，得到所述局部特征提取模块输出的所述图像的局部特征；所述局部特征用于生成图像上下文向量。

具体地，将图像输入至局部特征提取模块，局部特征提取模块采用基于卷积神经网络的快速区域(Faster R-CNN)检测模型中的目标候选特征v_i作为局部特征，从而得到局部特征提取模块输出的图像的局部特征；其中，局部特征用于生成图像上下文向量。

3)将所述初始文本和所述局部特征输入至所述编码器，得到所述编码器输出的文本编码向量和图像编码向量。

具体地，将初始文本和局部特征输入至编码器，编码器分别对初始文本和局部特征进行编码，得到文本编码向量和图像编码向量。

4)将所述文本编码向量和所述图像编码向量输入至所述解码器，得到所述解码器输出的文本解码序列和图像解码序列。

具体地，将文本编码向量和图像编码向量输入至解码器，解码器对文本编码向量和图像编码向量进行解码，得到文本解码序列和图像解码序列。

5)基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列，确定所述目标对象的所述目标文本。

具体地，根据文本编码向量、图像编码向量、文本解码序列和图像解码序列，可以进一步得到目标对象的目标文本。

可选地，所述多模态文本生成模型还包括：注意力模块、词汇分布模块和单词分布模块，所述基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列，确定所述目标对象的所述目标文本，包括：

a)将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块，得到所述注意力模块输出的加权融合上下文向量。

具体地，将文本编码向量、图像编码向量、文本解码序列和图像解码序列输入至注意力模块，可以得到注意力模块输出的加权融合上下文向量。

可选地，将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块，得到所述注意力模块输出的加权融合上下文向量，包括：

将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块，得到文本上下文向量和图像上下文向量；将所述文本上下文向量和所述图像上下文向量进行加权融合，得到所述加权融合上下文向量。

具体地，将文本编码向量和图像编码向量输入至注意力模块，根据上述公式(4)，可以得到文本上下文向量，根据公式(17)、公式(18)和公式(19)可以得到图像上下文向量；其中，

其中，

表示Decoder第t时间步对Decoder第i时间步的有关图像特征的关注程度，u_l、W_l和V_l表示可学习参数，b_l表示神经网络的偏差，v_i表示图像局部特征，s_t-1表示Decoder的第t-1时间步的隐藏层状态，

表示t时间步每个Encoder的隐藏层状态对应的图像局部特征的权重，

表示图像上下文向量。

进一步地，将所述文本上下文向量和所述图像上下文向量，采用公式(1)进行加权融合，得到所述加权融合上下文向量；

其中，

表示所述加权融合上下文向量，

表示t时间步所述文本上下文向量c_t的权重，

表示t时间步所述图像上下文向量

的权重，W_m和V_m表示神经网络的权重。

进一步地，

采用公式(20)表示，

采用公式(22)表示，

其中，σ表示sigmoid函数，W_g、V_g、b_g、W_h、V_h和b_h表示可学习参数，s_t表示Decoder的第t时间步的隐藏层状态，c_t表示文本上下文向量，

表示图像上下文向量，v₀表示Encoder的隐藏层的初始状态，s₀表示Decoder的隐藏层的初始状态，v_q表示图像局部特征向量，q表示高维图像特征，v_s表示Decoder的隐藏层的向量，s_t-1表示Decoder的第t-1时间步的隐藏层状态。

需要说明的是，在多模态文本生成模型训练的过程中，采用公式(1)替换上述公式(7)。

b)将所述文本解码序列输入至所述词汇分布模块，得到所述词汇分布模块输出的所述文本解码序列中每个词对应的概率。

具体地，将文本解码序列输入至词汇分布模块，词汇分布模块对文本解码序列中每个词在词汇表中的概率进行计算，得到文本解码序列中每个词对应的概率。

c)基于所述加权融合上下文向量、所述文本解码序列和所述图像解码序列，确定控制参数。

具体地，根据加权融合上下文向量、文本解码序列和图像解码序列，采用上述公式(7)可以得到控制参数P_gen。

d)将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块，得到所述单词分布模块输出的目标单词。

具体地，将控制参数、概率和编码器中隐藏层的权重之和输入至单词分布模块，可以得到单词分布模块输出的目标单词。

可选地，所述将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块，得到所述单词分布模块输出的目标单词，包括：

将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入所述单词分布模块，得到所述目标单词生成的概率分布；基于所述概率分布，确定所述目标单词。

具体地，将控制参数、概率和编码器中隐藏层的权重之和输入单词分布模块，单词分布模块根据控制参数P_gen、文本解码序列中每个词对应的概率P_vocab、编码器中隐藏层的权重之和，采用上述公式(8)可以得到目标单词生成的概率分布；再根据目标单词对应的概率分布，选择概率最大的单词作为目标单词。

e)基于所述目标单词，生成所述目标对象的目标文本。

具体地，根据目标单词，可以进一步生成目标对象的目标文本。

本文提出的多模态文本生成模型，能够准确生成目标对象的目标文本，提升了目标文本的生成效率，能够使得用户对目标对象进行全面了解，提升用户体验，进而提升目标对象的销量。

图4是本发明提供的多模态文本生成模型的结构示意图，如图4所示，将目标对象的图像输入至全局特征提取模块，得到全局特征提取模块输出的全局特征，全局特征用于对编码器和解码器的隐藏层进行初始化；将目标对象的图像输入至局部特征提取模块，得到局部特征提取模块输出的局部特征，局部特征用于生成图像上下文向量；将目标对象的初始文本和局部特征输入至编码器，得到编码器输出的文本编码向量和图像编码向量；将文本编码向量和图像编码向量输入至解码器，得到解码器得到的文本解码序列和图像解码序列；将文本编码向量、图像编码向量、文本解码序列和图像解码序列输入至注意力模块，得到注意力模块输出的加权融合上下文向量；将文本解码序列输入至词汇分布模块，得到词汇分布模块输出的文本解码序列中每个词对应的概率；根据加权融合上下文向量、文本解码序列和图像解码序列，可以计算得到控制参数；将控制参数、概率和编码器中隐藏层的权重之和输入至单词分布模块，得到单词分布模块输出的目标单词，进而根据目标单词生成目标文本。

为了验证多模态文本生成模型，基于获取的工业数据集，分别采用Seq2Seq模型、PGN模型与本发明提出的多模态文本生成模型进行数值实验，评价指标采用Rouge-1、Rouge-2与Rouge-L的F1值，其中，L为正整数。表1为Seq2Seq模型、PGN模型与本发明提出的多模态文本生成模型的评价指标，如表1所示，根据表1所示的结果表明，相比传统的Seq2Seq模型和PGN网络模型，本发明提出的多模态文本生成模型得到的评价指标值较好，表明了本发明提出的多模态文本生成模型的准确性与有效性。

表1.评价指标结果对比表

本发明提供的文本生成方法，在PGN模型的基础上，提出一种用于营销文案生成的多模态文本生成模型，通过深层卷积网络提取图像的全局特征对PGN模型中Encoder与Decoder端的隐藏层进行初始化，以及提取图像局部特征生成图像上下文向量，并与文本上下文向量进行加权融合，得到加权融合上下文向量，进而实现多模态特征输入多模态文本生成模型，并对多模态文本生成模型进行训练。

下面对本发明提供的文本生成装置进行描述，下文描述的XX装置与上文描述的文本生成方法可相互对应参照。

图5是本发明提供的文本生成装置的结构示意图，如图5所示，文本生成装置500包括获取模块501和文本生成模块502；其中，

获取模块501，用于获取目标对象的初始文本和所述目标对象的图像；

文本生成模块502，用于将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本。

本发明提供的文本生成装置，通过获取目标对象的初始文本和所述目标对象的图像；将初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本，通过多模态文本生成模型根据输入的目标对象的多模态信息，实现了目标对象的目标文本的生成，提升了目标文本生成的效率和全面性，进而提升用户体验。

可选地，所述多模态文本生成模型包括：全局特征提取模块、局部特征提取模块、编码器和解码器，所述文本生成模块502，具体用于：

可选地，所述文本生成模块502，具体用于：

基于所述目标单词，生成所述目标对象的目标文本。

可选地，所述文本生成模块502，具体用于：

其中，

表示所述加权融合上下文向量，

表示t时间步所述文本上下文向量c_t的权重，

表示t时间步所述图像上下文向量

的权重，W_m和V_m表示神经网络的权重。

可选地，所述文本生成模块502，具体用于：

基于所述概率分布，确定所述目标单词。

图6是本发明提供的一种电子设备的实体结构示意图，如图6所示，该电子设备600可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线660，其中，处理器610，通信接口620，存储器630通过通信总线660完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行文本生成方法，该方法包括：获取目标对象的初始文本和所述目标对象的图像；将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本生成方法，该方法包括：获取目标对象的初始文本和所述目标对象的图像；将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本生成方法，该方法包括：获取目标对象的初始文本和所述目标对象的图像；将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本；所述多模态文本生成模型是基于样本文本、样本图像和标签数据进行训练得到，用于生成所述目标对象的目标文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本生成方法，其特征在于，包括：

获取目标对象的初始文本和所述目标对象的图像；

2.根据权利要求1所述的文本生成方法，其特征在于，所述多模态文本生成模型包括：全局特征提取模块、局部特征提取模块、编码器和解码器，所述将所述初始文本和所述图像输入至多模态文本生成模型，得到所述多模态文本生成模型输出的所述目标对象的目标文本，包括：

3.根据权利要求2所述的文本生成方法，其特征在于，所述多模态文本生成模型还包括：注意力模块、词汇分布模块和单词分布模块，所述基于所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列，确定所述目标对象的所述目标文本，包括：

基于所述目标单词，生成所述目标对象的目标文本。

4.根据权利要求3所述的文本生成方法，其特征在于，所述将所述文本编码向量、所述图像编码向量、所述文本解码序列和所述图像解码序列输入至所述注意力模块，得到所述注意力模块输出的加权融合上下文向量，包括：

5.根据权利要求4所述的文本生成方法，其特征在于，所述将所述文本上下文向量和所述图像上下文向量进行加权融合，得到所述加权融合上下文向量，包括：

其中，

表示所述加权融合上下文向量，

表示t时间步所述文本上下文向量c_t的权重，

表示t时间步所述图像上下文向量

的权重，W_m和V_m表示神经网络的权重。

6.根据权利要求3所述的文本生成方法，其特征在于，所述将所述控制参数、所述概率和所述编码器中隐藏层的权重之和输入至所述单词分布模块，得到所述单词分布模块输出的目标单词，包括：

基于所述概率分布，确定所述目标单词。

7.一种文本生成装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述文本生成方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本生成方法。