CN115438210A

CN115438210A - 文本图像生成方法、装置、终端及计算机可读存储介质

Info

Publication number: CN115438210A
Application number: CN202210912106.3A
Authority: CN
Inventors: 曾忠燊; 王昊; 张家兴
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-12-06

Abstract

本发明所提供的文本图像生成方法、装置、终端及计算机可读存储介质，文本图像生成方法包括：显示多个候选文本片段，接收用户的文本片段确定指令，在多个候选文本片段中确定当前文本片段；将当前文本片段输入预先训练的文本生成模型中，提取当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征；获取所有历史图像对应的历史图像表征，将当前文本表征和历史图像表征输入预先训练的图像生成模型，生成与拼接后文本对应的当前候选图像。本发明通过提取拼接后文本的当前文本表征，将当前文本表征与所有历史图像对应的历史图像表征一起输入图像生成模型中，使得每个图像之间具有一致性，进而使得长文本可以匹配对应一系列具有一致性的图像。

Description

文本图像生成方法、装置、终端及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及的是文本图像生成方法、装置、终端及计算机可读存储介质。

背景技术

随着预先训练语言模型(Pretrained Language Model)的技术发展，模型开始能够生成可信、逻辑自洽的长文本。并且，随着对生成技术的不断探索创新，多样化的文本生成方案逐渐成为可能。

随着多模态(如文本加图像)的预先训练模型技术的发展，出现了多个允许用户根据文字描述生成高清晰度的可信图像，但是只局限于单个文本对应的图像生成。也就是说，图像生成模型往往局限于单句生成，缺乏对上下文图片和文字的建模。因此，图像生成模型在根据长文本生成一系列图像时，可能缺乏风格一致性和语义一致性，其中，长文本包括多个文本片段，每个文本片段均可对应生成图像。例如，在一个童话故事里，图片的风格突然由油画色调切换成写实色调，导致这段长文本生成的一系列图像缺乏风格一致性。再如，故事背景在童话城堡里，但在描述用餐的景象时图片是现代餐厅的用餐情景，导致这段长文本生成的一系列图像缺乏语义一致性。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供文本图像生成方法、装置、终端及计算机可读存储介质，旨在解决现有技术中根据长文本生成一系列图像时，上下文对应生成的图像之间语境语义前后不一致性的问题。

本发明解决技术问题所采用的技术方案如下：

一种文本图像生成方法，包括：

显示多个候选文本片段，接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段；

将所述当前文本片段输入预先训练的文本生成模型中，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征；

获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像。

在一种实现方式中，所述候选文本片段为所述文本生成模型根据所有历史文本片段生成。

在一种实现方式中，所述历史文本片段包括用户输入的初始文本片段；

将所述初始文本片段输入所述文本生成模型，生成多个候选文本片段；

接收用户的文本片段确定指令；

根据所述文本片段确定指令在多个所述候选文本片段中确定第一文本片段，并提取所述初始文本片段与所述第一文本片段拼接后文本对应的第一文本表征。

在一种实现方式中，所述根据所述文本片段确定指令在多个所述候选文本片段中确定第一文本片段，并提取所述初始文本片段与所述第一文本片段拼接后文本对应的第一文本表征之后，还包括：

将所述第一文本表征和空白图像表征输入所述图像生成模型，生成多个与所述第一文本片段对应的第一候选图像；

接收用户的第一图像选择指令，根据所述第一图像选择指令在多个所述第一候选图像中确定第一图像。

在一种实现方式中，所述历史文本片段包括：所述初始文本片段，以及用户在文本生成模型生成的多个候选文本中选中的文本片段；

所述显示多个候选文本片段，接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段，包括：

在所述文本生成模型中根据所有历史文本片段生成多个当前候选文本片段，并显示；

接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段。

在一种实现方式中，将所述当前文本片段输入预先训练的文本生成模型中，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征，包括：

将所述当前文本片段输入预先训练的文本生成模型中，根据所述当前文本片段对应的句向量和每个所述历史文本片段对应的句向量联合提取当前文本表征；

其中，在对各个文本片段对应的句向量提取时建模长序依赖，并对各个句向量进行了映射操作。

在一种实现方式中，所述历史图像包括用户在图像生成模型生成的多个候选图像中选中的图像；

所述获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像之后，还包括：

接收用户的当前图像确定指令，在多个所述当前候选图像中确定当前图像；

在所述图像生成模型中提取所述当前图像和所有历史图像对应的当前图像表征。

在一种实现方式中，所述文本生成模型和所述图像生成模型的训练步骤包括：

获取文本训练集，利用所述文本训练集训练得到初始文本生成模型；

获取预先建立的文本图像训练集，利用所述文本图像训练集训练所述初始文本生成模型以及初始图像生成模型；所述文本图像训练集中包括文本片段训练数据、图像训练数据，以及所述文本片段训练数据与所述图像训练数据之间的对应关系；

训练完成，得到已训练的文本生成模型和图像生成模型。

在一种实现方式中，所述获取文本训练集，利用所述文本训练集训练得到初始文本生成模型，包括：

获取文本训练集，利用自回归式语言模型或者非自回归式语言模型建模所述文本训练集中文本片段生成的最大似然概率。

在一种实现方式中，当采用自回归式语言模型时，所述最大似然概率的计算公式为

其中，所述X＝{X₁,X₂,…,X_t}代表长度为T的文本片段。

在一种实现方式中，利用所述文本图像训练集训练所述初始文本生成模型以及初始图像生成模型，包括：

获取所述文本图像训练集中的文本片段训练数据；

将所述文本片段训练数据输入所述初始文本生成模型，生成第一文本训练片段；

提取所述文本片段训练数据和所述第一文本训练片段拼接后的文本对应的第一训练文本表征；

将所述第一训练文本表征与空白图片表征输入所述初始图像生成模型，生成第一训练图像。

在一种实现方式中，将所述第一训练文本表征与空白图片表征输入所述初始图像生成模型，生成第一训练图像之后，还包括：

根据所有历史文本训练片段生成当前文本训练片段，所述历史文本训练片段包括：所述文本片段训练数据，以及在所述初始文本生成模型中生成的文本训练片段；

提取所述当前文本训练片段以及所述历史文本训练片段拼接后的文本对应的当前文本训练表征；

获取所有历史训练图像对应的历史训练图像表征，将所述当前文本训练表征和所述历史训练图像表征输入所述初始图像生成模型，生成当前训练图像；所述历史训练图像包括在所述初始图像生成模型中生成的图像。

在一种实现方式中，所述根据所有历史文本训练片段生成当前文本训练片段，还包括：

将所述当前文本训练片段与所述文本图像训练集中对应的目标文本片段训练数据进行比对，最大化生成所述目标文本片段训练数据的似然概率以计算所述文本生成模型的损失。

在一种实现方式中，所述获取所有历史训练图像对应的历史训练图像表征，将所述当前文本训练表征和所述历史训练图像表征输入所述初始图像生成模型，生成当前训练图像，还包括：

查找与所述目标文本片段训练数据对应的目标图像训练数据，将所述当前训练图像与所述目标图像训练数据进行比对，最大化生成所述目标图像训练数据的似然概率以计算所述图像生成模型的损失。

本发明还提供一种文本图像生成装置，包括：

显示模块，用于显示多个候选文本片段和多个候选图像；

确定模块，用于接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段，同时也用于接收用户的图像确定指令，在多个候选图像中确定当前图像；

文本特征提取模块，用于将所述当前文本片段输入预先训练的文本生成模型中生成多个候选文本片段，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征；

图像生成模块，用于获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像。

本发明还提供一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本图像生成程序，所述文本图像生成程序被所述处理器执行时实现如上所述的文本图像生成方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序能够被执行以用于实现如上所述的文本图像生成方法的步骤。

本发明所提供的文本图像生成方法、装置、终端及计算机可读存储介质，所述文本图像生成方法包括：显示多个候选文本片段，接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段；将所述当前文本片段输入预先训练的文本生成模型中，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征；获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像。本发明通过提取当前文本片段和所有历史文本片段拼接后文本的当前文本表征，并将当前文本表征与所有历史图像对应的历史图像表征一起输入图像生成模型中，使得每个图像之间具有一致性，进而使得长文本可以匹配对应一系列具有一致性的图像。

附图说明

图1是本发明中文本图像生成方法较佳实施例的流程图。

图2是本发明中文本片段输入界面示意图。

图3是本发明中文本图像生成方法较佳实施例中步骤S100的具体流程图。

图4是本发明中文本图像生成方法较佳实施例中步骤S300之后的流程图。

图5是本发明中文本生成模型和图像生成模型的示意图。

图6是本发明中预先训练文本生成模型和图像生成模型的具体流程图。

图7是本发明中文本图像生成方法较佳实施例中步骤S20的具体流程图。

图8是本发明中多模态生成模型的算法原理图。

图9是本发明中多模态生成模型的原理示意图。

图10是本发明中文本图像生成装置的较佳实施例的功能原理框图。

图11是本发明中终端的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了用户一种通过直观的图形界面与大规模预训练语言模型的交互过程，并最终得到与文本匹配对应的一系列数字图像。在该过程中用户可以不断生成文本或故事并根据模型所返还的可能选项或用户的输入，自由决定文本的行文具体走向。随着用户所选择的文本走向变化，模型在每一次交互更新后，综合前序所生成的长文本，动态捕捉时序中的关键语义语法等抽象结构信息，生成潜在信息的高维向量表征。该表征会与历史图像一并输入一个多模态的文字到图像的深度学习模型中，为生成上下文风格一致、涵义连贯的图像过程起引导作用，实现了根据动态文本生成强一致性的图像。

请参见图1，图1是本发明中文本图像生成方法的流程图。如图1所示，本发明实施例所述的文本图像生成方法包括以下步骤：

步骤S100、显示多个候选文本片段，接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段。

也就是说，本发明实现了文本生成图像时与用户的交互，允许用户自行选择当前文本片段，定制化地根据当前文本片段生成强一致性的系列图像。所述候选文本片段为所述文本生成模型根据所有历史文本片段生成。

在一种实现方式中，所述历史文本片段包括用户输入的初始文本片段。文本图像生成方法还包括：将所述初始文本片段输入所述文本生成模型，生成多个候选文本片段；接收用户的文本片段确定指令；根据所述文本片段确定指令在多个所述候选文本片段中确定第一文本片段，并提取所述初始文本片段与所述第一文本片段拼接后文本对应的第一文本表征。

具体地，本发明由用户输入初始文本片段，所述初始文本片段可以是一个句子，也可以是一个或几个关键词，如图2所示。文本生成模型可以根据初始文本片段自动生成下文，即生成连续的文本片段。在生成第一文本片段时，文本生成模型提供了多个候选文本片段，用户可以自行选择第一文本片段，从而实现了用户自由决定文本的行文具体走向。再联合提取初始文本片段和第一文本片段拼接后文本的第一文本表征，所述第一文本表征是一种联合高维抽象特征，对指导图像生成一致性风格具有决定性作用。

在一种实施例中，根据所述文本片段确定指令在多个所述候选文本片段中确定第一文本片段，并提取所述初始文本片段与所述第一文本片段拼接后文本对应的第一文本表征之后还包括：将所述第一文本表征和空白图像表征输入所述图像生成模型，生成多个与所述第一文本片段对应的第一候选图像；接收用户的第一图像选择指令，根据所述第一图像选择指令在多个所述第一候选图像中确定第一图像。也就是说，在第一轮循环时，没有历史图像表征，则使用空白图像表征与第一文本表征一同输入图像生成模型。

在一种实施例中，所述历史文本片段包括：所述初始文本片段，以及用户在文本生成模型生成的多个候选文本中选中的文本片段。如图3所示，所述步骤S100具体包括：

步骤S110、在所述文本生成模型中根据所有历史文本片段生成多个当前候选文本片段，并显示；

步骤S120、接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段。

具体地，历史文本片段是指自初始文本片段输入开始后生成的文本片段中被用户选中的文本片段，同时也包括初始文本片段。每个文本片段生成对应的图像是一个循环，用户可以通过多次循环生成长文本。因此，在当次循环中会考虑之前的循环中生成的所有文本片段以及初始文本片段，以提高各个文本片段生成图像的一致性。多个当前候选文本片段均与前文保持了一致性，并可以由用户自行确定最终的文本片段。

所述步骤S100之后为：步骤S200、将所述当前文本片段输入预先训练的文本生成模型中，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征。也就是说，在每个循环中均联合提取前文中联合高维抽象特征。

在一种实施例中，将所述当前文本片段输入预先训练的文本生成模型中，根据所述当前文本片段对应的句向量和每个所述历史文本片段对应的句向量联合提取当前文本表征；其中，在对各个文本片段对应的句向量提取时建模长序依赖，并对各个句向量进行了映射操作。

具体地，常见的自回归式语言模型建模的是词与词之间的长序依赖。而本发明则是句子间句向量的提取建模了长序依赖，并对句向量进行了映射操作，使得其关注的是更加高维的抽象语义信息。而一般的语言模型不建模句子表征之间的联系，也不将其映射为高维潜在空间向量。

所述步骤S200之后为：步骤S300、获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像。

历史图像表征是由图像生成模型对所有历史图像联合提取的高维特征。

在一种实施例中，所述历史图像包括用户在图像生成模型生成的多个候选图像中选中的图像。如图4所示，所述步骤S300之后还包括：

步骤S410、接收用户的当前图像确定指令，在多个所述当前候选图像中确定当前图像；

步骤S420、在所述图像生成模型中提取所述当前图像和所有历史图像对应的当前图像表征。

可以理解的，在当前循环中提取的当前图像表征即为下一循环的历史图像表征。

如图5所示，文本生成模型根据用户输入的句子0生成多个句子候选，用户在多个句子候选中选定句子1后，文本生成模型根据句子0和1的两个句向量联合提取高维文本表征1。与图片表征0(即零向量)一并输入图像生成模型，图像生成模型生成多个候选图像，用户选定图像1后，图像生成模型将图像特征映射为一个高维图像表征1，单个循环结束。

在新的一轮循环里，文本生成模型根据历史句子0和1生成多个句子候选，用户选定句子2后，文本生成模型会提取句子0、1和2的联合高维抽象特征得到文本表征2，与上个循环里图像生成模型提取的历史图像1的图像表征1一并输入右侧图像生成模型，以产生图像2。也就是说，每一个循环里生成文本片段和图像时，生成的表征都是考虑了过去多个句子或者图像提取的高维公共特征，该特征对指导图像生成一致性风格具有决定性作用。该循环会不断重复直至用户停止选择下一文本片段。

这样，本发明通过多次循环，各个文本片段之间形成长文本，且得到了与长文本匹配对应的一系列数字图像，也就是说，本发明允许用户交互式地生成长序文本和与之对应的系列图像，在儿童绘本、商业展示制作等场景具有广泛应用前景与潜力。

在一种实现方式中，如图6所示，所述文本生成模型和所述图像生成模型的训练步骤包括：

步骤S10、获取文本训练集，利用所述文本训练集训练得到初始文本生成模型；

步骤S20、获取预先建立的文本图像训练集，利用所述文本图像训练集训练所述初始文本生成模型以及初始图像生成模型；

步骤S30、训练完成，得到已训练的文本生成模型和图像生成模型；

其中，所述文本图像训练集中包括文本片段训练数据、图像训练数据，以及所述文本片段训练数据与所述图像训练数据之间的对应关系。

也就是说，本发明首先用文本训练集训练一个初始文本生成模型，文本训练集中只有文本。该初始文本生成模型的可选架构包括Transformer架构或循环神经网络RNN，除了可以正常地生成通畅语句外，需拥有额外的架构如循环神经网络(RNN)中的长短时记忆模型(LSTM)或注意力机制(Attention Mechanism)等，能够对上下文的公共抽象特征提取建模，并且能够确保其应用受控文本生成技术，可以提供给用户交互生成文本的能力。

然后再训练一个接收文本高维表征以及历史图像的高维抽象表征以产生高清晰度图像的多模态生成模型，该多模态生成模型包括经文本图像训练集训练得到的初始文本生成模型，和一个未经训练的初始图像生成模型，将两者联合训练以对齐不同模态间的数据表征。模型训练时的目标是最大化生成训练数据的概率。

在一种实现方式中，所述步骤S10具体包括：获取文本训练集，利用自回归式语言模型或者非自回归式语言模型建模所述文本训练集中文本片段生成的最大似然概率。

在一种实施例中，获取文本训练集，当采用自回归式语言模型时，所述最大似然概率的计算公式为

所述X＝{X₁,X₂,…,X_t}代表长度为T的文本片段。

具体地，初始文本生成模型采用的是文本到文本的训练方式，训练的数据输入和输出皆为文本。可以采用常见的自回归式语言模型建模句子生成的最大似然概率。最大似然概率的计算公式的含义是在语言模型预测下一个字词时，下一个字词的概率条件于所有前序字词。具体地，语言模型生成词句，如果是从左到右一个一个接着生成就叫做自回归式生成。每生成一个字的时候，都要考虑前面所生成的内容，称为条件于前序字词。但是如果使用的是非自回归式生成，则可能是乱序生成(比如插入)或者一句话中所有的字都是同时优化生成，那么最大似然概率就不再是条件于前序字词。

在一种实现方式中，如图7所示，所述步骤S20中“利用所述文本图像训练集训练所述初始文本生成模型以及初始图像生成模型”具体包括：

步骤S21、获取所述文本图像训练集中的文本片段训练数据；

步骤S22、将所述文本片段训练数据输入所述初始文本生成模型，生成第一文本训练片段；

步骤S23、提取所述文本片段训练数据和所述第一文本训练片段拼接后的文本对应的第一训练文本表征；

步骤S24、将所述第一训练文本表征与空白图片表征输入所述初始图像生成模型，生成第一训练图像。

在一种实施例中，所述步骤S24之后还包括：

步骤S25、根据所有历史文本训练片段生成当前文本训练片段；

所述历史文本训练片段包括：所述文本片段训练数据，以及在所述初始文本生成模型中生成的文本训练片段；

步骤S26、提取所述当前文本训练片段以及所述历史文本训练片段拼接后的文本对应的当前文本训练表征；

步骤S27、获取所有历史训练图像对应的历史训练图像表征，将所述当前文本训练表征和所述历史训练图像表征输入所述初始图像生成模型，生成当前训练图像；

所述历史训练图像包括在所述初始图像生成模型中生成的图像。

具体地，首先，大规模地进行图文一致性的数据的爬取。例如，从图文绘本，商业展示，或为针对听障人士配备字幕的介绍性视频等数据源搜集并整理成文字与图像数据对，将文字与图像数据对存储为文本图像训练集。在整理时，神经网络的有监督训练一般包含一个输入和一个期望输出，在特定情境下爬取的文本图像对之间具有风格一致、语义一致等特点。所述文本图像训练集可以为一个或多个长文本数据段，一个长文本数据段包括多个文本片段训练数据，每个文本片段训练数据均对应有图像训练数据，且各个图像之间风格一致、语义一致。例如，一段长文本中包括很多句子，每个句子均可以作为文本片段训练数据，并且每个句子均对应有一个图像，且上下文的图像之间风格一致、语义一致。

例如，句子0可以为文本图像训练集中长文本数据段的第一个句子，也可以是其他句子。初始文本生成模型根据句子0生成句子1，并根据句子0和1的两个句向量联合提取高维文本表征1后，与图片表征0(即零向量)一并输入初始图像生成模型，图像生成模型生成图像1，并将图像1的图像特征映射为一个高维图像表征1。初始文本生成模型在根据历史句子0和1，生成句子2后，初始文本生成模型会提取句子0、1和2的联合高维抽象特征得到文本表征2，与初始图像生成模型提取的历史图像1的图像表征1一并输入初始图像生成模型，以产生图像2。后续步骤不断重复循环，直至该长文本数据段结束。

在一种实施例中，所述步骤S25还包括：将所述当前文本训练片段与所述文本图像训练集中对应的目标文本片段训练数据进行比对，最大化生成所述目标文本片段训练数据的似然概率以计算所述文本生成模型的损失。也就是说，每一个循环里生成文本训练片段时，初始文本生成模型都与文本图像训练集中的文本片段训练数据进行比对，以最大化生成该文本片段训练数据的似然概率。

在一种实现方式中，所述步骤S27还包括：查找与所述目标文本片段训练数据对应的目标图像训练数据，将所述当前训练图像与所述目标图像训练数据进行比对，最大化生成所述目标图像训练数据的似然概率以计算所述图像生成模型的损失。也就是说，每一个循环里生成训练图像时，图像生成模型都与文本图像训练集中的图像训练数据比对，以最大化生成该图像训练数据的似然概率。即，在训练时，通过计算数据的似然概率偏差以更新模型。而在用户使用时，每一次生成文本片段或图像时，都通过采样控制来生成多个候选文本片段或候选图像，以供用户选择。

多模态生成模型的具体实现有多种可能，其中一种是扩散生成模型，即以热动力学的机理建模一个从无序高斯分布中预测一个连续概率分布，并不断以文本输入信息引导概率分布预测直至分布贴合文本生成模型语义的过程。如图8和图9所示，训练(training)的过程实际上是随机采第t步的加噪图像，输入带噪图片以及步数t，模型预测噪声∈，模型训练目标：预测噪声与实际加入噪声的误差越小越好。采样(sampling)的过程(生成过程)为：将有噪声的图像(第一张图像为随机采样的高斯分布噪声)减去模型预测的噪声(噪声前面的其它参数可以由上面加噪的过程反向推导出来)，不断把噪声去掉以恢复出原始的图像。其中，图像的扩散模型的训练是在数据真实分布q中采样一个图片X₀，拟合一个它在扩散过程中的误差估计来逐步添加噪声。在应用训练好的模型做推断时是从高斯噪声中采样一个噪音图片，不断去噪来得到一个清晰的图像，并且要求这个图像服从真正的分布q。现有技术中的模型都只考虑单步语义的建模，并没有将上下文考虑进文本表示中，在图像生成当中，也没有考虑将历史图像(即非无序高斯分布噪音图)的高维图像表征一并输入模型。因此，本发明根据上下文文本与历史图像提取抽象高维表征以引导图像生成，相较于传统的不考虑前序文字和图像的技术方案，更好地保证了生成的图像之间的一致性，解决了当前文本生成模型所生成的长文本语义前后不一致，根据文本所生成的图像前后风格突变等问题。

本发明预先训练的文本生成模型和图像生成模型共同组成了多模态生成模型，可以根据上下文建模生成对文本的抽象表征，使得不仅当前语句的语境得到考虑，还考虑了上文的语句信息，风格气氛等抽象信息得以存留表征；将该抽象表征输入多模态生成模型，在图像生成的过程中通过抽象表征的不断引导，使得每个句子所生成的对应图像风格一致，涵义连贯而不割裂；该模型独有的利用上下文语句生成潜在信息表征的语言模型与利用历史图像和文本表征生成新图像(包括多个候选图像)的架构，是长序模型能够有效地保持一致性的保障。

进一步地，如图10所示，基于上述文本图像生成方法，本发明还相应提供了一种文本图像生成装置，包括：

显示模块100，用于显示多个候选文本片段和多个候选图像；

确定模块200，用于接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段，同时也用于接收用户的图像确定指令，在多个候选图像中确定当前图像；

文本特征提取模块300，用于将所述当前文本片段输入预先训练的文本生成模型中生成多个候选文本片段，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征；

图像生成模块400，用于获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像。

进一步地，如图11所示，基于上述文本图像生成方法，本发明还相应提供了一种终端，包括处理器10、存储器20。图11仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如安装所述终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有文本图像生成程序30，该文本图像生成程序30可被处理器10所执行，从而实现本申请中文本图像生成方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述文本图像生成方法等。

在一实施例中，当处理器10执行所述存储器20中文本图像生成程序30时实现以下步骤：

获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前图像。

所述候选文本片段为所述文本生成模型根据所有历史文本片段生成。

所述历史文本片段包括用户输入的初始文本片段；

接收用户的文本片段确定指令；

所述根据所述文本片段确定指令在多个所述候选文本片段中确定第一文本片段，并提取所述初始文本片段与所述第一文本片段拼接后文本对应的第一文本表征之后，还包括：

所述历史文本片段包括：所述初始文本片段，以及用户在文本生成模型生成的多个候选文本中选中的文本片段；

将所述当前文本片段输入预先训练的文本生成模型中，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征，包括：

所述历史图像包括用户在图像生成模型生成的多个候选图像中选中的图像；

所述获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像之后，包括：

所述文本生成模型和所述图像生成模型的训练步骤包括：

训练完成，得到已训练的文本生成模型和图像生成模型。

所述获取文本训练集，利用所述文本训练集训练得到初始文本生成模型，包括：

当采用自回归式语言模型时，所述最大似然概率的计算公式为

其中，所述X＝{X₁,X₂,…,X_t}代表长度为T的文本片段。

利用所述文本图像训练集训练所述初始文本生成模型以及初始图像生成模型，包括：

获取所述文本图像训练集中的文本片段训练数据；

将所述第一训练文本表征与空白图片表征输入所述初始图像生成模型，生成第一训练图像之后，还包括：

所述根据所有历史文本训练片段生成当前文本训练片段，还包括：

所述获取所有历史训练图像对应的历史训练图像表征，将所述当前文本训练表征和所述历史训练图像表征输入所述初始图像生成模型，生成当前训练图像，还包括：

综上所述，本发明公开的文本图像生成方法、装置、终端及计算机可读存储介质，所述文本图像生成方法包括：显示多个候选文本片段，接收用户的文本片段确定指令，在多个所述候选文本片段中确定当前文本片段；将所述当前文本片段输入预先训练的文本生成模型中，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征；获取所有历史图像对应的历史图像表征，将所述当前文本表征和所述历史图像表征输入预先训练的图像生成模型，生成与所述拼接后文本对应的当前候选图像。本发明通过提取当前文本片段和所有历史文本片段拼接后文本的当前文本表征，并将当前文本表征与所有历史图像对应的历史图像表征一起输入图像生成模型中，使得每个图像之间具有一致性，进而使得长文本可以匹配对应一系列具有一致性的图像。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种文本图像生成方法，其特征在于，包括：

2.根据权利要求1所述的文本图像生成方法，其特征在于，所述候选文本片段为所述文本生成模型根据所有历史文本片段生成。

3.根据权利要求1所述的文本图像生成方法，其特征在于，所述历史文本片段包括用户输入的初始文本片段；

接收用户的文本片段确定指令；

4.根据权利要求3所述的文本图像生成方法，其特征在于，所述根据所述文本片段确定指令在多个所述候选文本片段中确定第一文本片段，并提取所述初始文本片段与所述第一文本片段拼接后文本对应的第一文本表征之后，还包括：

5.根据权利要求3所述的文本图像生成方法，其特征在于，所述历史文本片段包括：所述初始文本片段，以及用户在文本生成模型生成的多个候选文本中选中的文本片段；

6.根据权利要求1所述的文本图像生成方法，其特征在于，将所述当前文本片段输入预先训练的文本生成模型中，提取所述当前文本片段与所有历史文本片段拼接后文本对应的当前文本表征，包括：

7.根据权利要求1所述的文本图像生成方法，其特征在于，所述历史图像包括用户在图像生成模型生成的多个候选图像中选中的图像；

8.根据权利要求1所述的文本图像生成方法，其特征在于，所述文本生成模型和所述图像生成模型的训练步骤包括：

训练完成，得到已训练的文本生成模型和图像生成模型。

9.根据权利要求8所述的文本图像生成方法，其特征在于，所述获取文本训练集，利用所述文本训练集训练得到初始文本生成模型，包括：

10.根据权利要求9所述的文本图像生成方法，其特征在于，当采用自回归式语言模型时，所述最大似然概率的计算公式为

其中，所述X＝{X₁,X₂,…,X_t}代表长度为T的文本片段。

11.根据权利要求8所述的文本图像生成方法，其特征在于，利用所述文本图像训练集训练所述初始文本生成模型以及初始图像生成模型，包括：

获取所述文本图像训练集中的文本片段训练数据；

12.根据权利要求11所述的文本图像生成方法，其特征在于，将所述第一训练文本表征与空白图片表征输入所述初始图像生成模型，生成第一训练图像之后，还包括：

13.根据权利要求12所述的文本图像生成方法，其特征在于，所述根据所有历史文本训练片段生成当前文本训练片段，还包括：

14.根据权利要求13所述的文本图像生成方法，其特征在于，所述获取所有历史训练图像对应的历史训练图像表征，将所述当前文本训练表征和所述历史训练图像表征输入所述初始图像生成模型，生成当前训练图像，还包括：

15.一种文本图像生成装置，其特征在于，包括：

显示模块，用于显示多个候选文本片段和多个候选图像；

16.一种终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本图像生成程序，所述文本图像生成程序被所述处理器执行时实现如权利要求1～14任意一项所述的文本图像生成方法的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序能够被执行以用于实现如权利要求1～14任意一项所述的文本图像生成方法的步骤。