CN117726700A

CN117726700A - 图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN117726700A
Application number: CN202311268619.6A
Authority: CN
Inventors: 王奇勋
Original assignee: Shuhang Technology Beijing Co ltd
Current assignee: Shuhang Technology Beijing Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-03-19

Abstract

本申请实施例公开了一种图像生成方法、装置、电子设备及存储介质。方法包括：获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码；获取参考噪声特征，根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征；根据上述预测噪声特征，通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。在图像生成过程中，用户只需要提供目标描述文本，有利于提高图像生成效率。同时，本方案并不会规定特定的图像元素只能生成在图像中固定的位置，有利于提高图像生成的灵活性和多样性。

Description

图像生成方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及图像生成方法、装置、电子设备及存储介质。

背景技术

目前，图像的应用越来越广泛，例如，用户在各种应用软件中可以使用自己喜欢的图像作为头像。为了提高用户使用体验，可以为用户提供图像生成方式，以使得用户可以获得自己想要的图像。

相关技术中，通常为用户提供一些预设的图像元素，由用户自行组合图像元素以生成想要的图像。但需要用户在图像元素库中查找和选择图像元素，并自己进行组合，图像生成效率低。同时，固定的图像元素只能放在固定的位置，图像生成时灵活性和多样性较低。

发明内容

本申请实施例提供一种图像生成方法、装置、电子设备及存储介质，不需要用户手动选择图像元素进行组合，可以根据通过图像生成模型获得的预测噪声特征生成与目标描述文本匹配的目标图像，有利于提高图像生成效率，以及图像生成时的灵活性和多样性。

本申请实施例第一方面提供一种图像生成方法，上述方法包括：

获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码；

获取参考噪声特征，根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征；

根据上述预测噪声特征，通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。

本申请实施例第二方面提供一种图像生成装置，上述装置包括：

数据获取模块，用于获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码；

数据处理模块，用于根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征；

图像生成模块，用于通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。

在一些可选的实施例中，上述数据处理模块具体用于：

将上述目标文本编码和上述参考噪声特征输入上述图像生成模型，获得第一预测噪声特征；

根据上述第一预测噪声特征对上述参考噪声特征进行去噪，以更新上述参考噪声特征；

将上述目标文本编码和更新后的上述参考噪声特征输入上述图像生成模型，得到第二预测噪声特征，直至得到满足预设的迭代终止条件的预测噪声特征。

在一些可选的实施例中，上述数据获取模块包括：

文本获取单元，获取待生成目标图像的目标描述文本；

分词单元，用于对上述目标描述文本进行分词，获得至少一个目标词语；

编码单元，用于将上述目标词语输入预设的文本编码器，通过上述文本编码器分别对各上述目标词语进行编码，获得各上述目标词语对应的目标文本编码。

在一些可选的实施例中，上述图像生成装置还包括模型训练模块，用于：

获取训练噪声特征和训练样本，其中，每一上述训练样本包含训练文本编码，以及上述训练文本编码对应的训练图像编码特征；

针对每一训练样本执行以下操作，直至训练后的图像生成模型满足预设训练结束条件：

根据上述训练噪声特征和上述训练图像编码特征获取噪声图像编码特征；

将上述训练文本编码和上述噪声图像编码特征输入上述图像生成模型，以获取上述图像生成模型输出的预测噪声特征；

根据上述预测噪声特征和上述训练噪声特征，对上述图像生成模型的模型参数进行调整，得到训练后的图像生成模型。

在一些可选的实施例中，上述模型训练模块包括样本获取单元，用于：

获取训练噪声特征；

获取训练描述文本，以及与上述训练描述文本匹配的训练图像；

通过预设的文本编码器对上述训练描述文本进行文本编码，以获得上述训练文本编码；

通过预设的图像编码器对上述训练图像进行图像编码，以获得上述训练图像编码特征；

将上述训练文本编码和上述训练图像编码关联设置为训练样本。

在一些可选的实施例中，上述数据获取模块包括文本获取单元，用于：

响应于对文本操作页面中元素类型组件的选择操作，获取目标元素类型，并显示选中的元素类型组件对应的文本输入界面；

响应于在上述文本输入界面的文本输入操作和/或文本选择操作，获取上述目标元素类型对应的文本数据；

根据上述目标元素类型和上述文本数据获取上述目标描述文本。

本申请实施例第三方面提供一种电子设备，包括存储器和处理器，上述存储器存储有多条指令；上述处理器从上述存储器中加载指令，以执行本申请实施例第一方面提供的图像生成方法中的步骤。

本申请实施例第四方面提供一种计算机可读存储介质，上述计算机可读存储介质存储有多条指令，上述指令适于处理器进行加载，以执行本申请实施例第一方面提供的图像生成方法中的步骤。

采用本申请实施例的方案，可以获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码；获取参考噪声特征，根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征；根据上述预测噪声特征，通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。

如此，在图像生成过程中，用户只需要提供目标描述文本，无需手动选择图像元素进行组合，有利于提高图像生成效率。同时，本实施例方案并不会规定特定的图像元素只能生成在图像中固定的位置，有利于提高图像生成的灵活性和多样性，从而避免生成相同的图像。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像生成方法的流程示意图；

图2是本申请实施例提供的一种图像生成方法的具体流程示意图；

图3是本申请实施例提供的一种图像生成模型训练过程示意图；

图4是本申请实施例提供的一种生成的目标图像示意图；

图5是本申请实施例提供的一种图像生成装置的结构框图；

图6是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供图像生成方法、装置、电子设备及存储介质。具体地，本申请实施例的图像生成方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、个人计算机(PC，Personal Computer)、个人数字助理(PDA，Personal Digital Assistant)等终端设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例第一方面提供一种图像生成方法，请参阅图1，图1是本申请实施例提供的一种图像生成方法的流程示意图。该图像生成方法的具体流程可以如下：

101、获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码。

其中，上述目标描述文本用于描述想要生成的待生成目标图像中所包含的元素，例如，可以是滑板、大海等。需要说明的是，本实例中，以目标描述文本的格式为英文文本为例进行说明，但不作为具体限定。使用英文文本格式的目标描述文本时，若用户输入的文本是中文文本，翻译成对应的英文文本即可。

上述目标文本编码是通过对目标描述文本进行编码获得的向量。需要说明的是，目标描述文本可以以句子的形式输入，也可以以词语的形式输入。

在一些实施例中，以上述目标描述文本以句子的形式输入为例进行说明，上述获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码，包括：

获取待生成目标图像的目标描述文本；

对上述目标描述文本进行分词，获得至少一个目标词语；

将上述目标词语输入预设的文本编码器，通过上述文本编码器分别对各上述目标词语进行编码，获得各上述目标词语对应的目标文本编码。

如此，将目标描述文本所进行分词，获得各个目标词语，从而对各个目标词语进行文本编码，获得各个目标词语对应的目标文本编码。在分词的过程中，还可以剔除停用词，或对可能输入有误的词语进行修正或删除，从而提高图像生成过程的准确性，使得生成的目标图像更符合目标描述文本的描述，符合用户需求。上述预设的文本编码器是预先训练好的文本编码器，在此不作具体限定。

在一些实施例中，用户可以指定输入的目标描述文本中各个词语对应的元素类型，例如，可以是背景元素、人物元素、物体元素等，背景元素所对应的词语用于描述图像的背景部分的特征，人物元素所对应的词语用于描述图像的人物主体部分的特征，物体元素用于描述图像中其它物体的特征。例如，用户可以输入滑板作为物体元素词语，输入大海作为背景元素词语等，在此不作具体限定。

在一些实施例中，目标描述文本可以由用户通过可交互的可视化界面输入或选择，具体的，上述获取待生成目标图像的目标描述文本，包括：

如此，通过电子设备(例如手机)显示一个文本操作页面，上述文本操作页面中包括多个元素类型组件，用户选择其中一个元素类型组件之后，获取对应的目标元素类型，然后在该选中的元素类型组件所对应的文本输入界面输入或者选择对应的文本数据。

本实施例中，用户可以通过打字输入自己想要的文本数据，也可以通过文本输入界面中显示的多个预设单词选择组件选择想要的文本数据。上述预设单词选择组件所对应的词语可以根据用户进行数据输入时的词语频率设置和更新，以方便用户使用，提高图像生成效率。

本实施例中，在获取目标元素类型和对应的文本数据之后，可以将两者关联存储，获得对应的目标描述文本。从而根据目标描述文本获得更准确的目标图像，提升用户使用体验。

102、获取参考噪声特征，根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征。

其中，上述参考噪声特征是噪声矩阵，本实施例中，获取预设的图像大小，然后根据图像大小生成上述噪声矩阵。其中，图像大小可以根据用户需求预先设置和调整，本实施例以图像的宽和高都是512像素为例进行具体说明，但不作为具体限定。

本实例中，基于预设的概率分布模式生成与图像大小匹配的二维矩阵作为上述噪声矩阵。具体的，通过高斯分布生成一个宽高都是512的二维矩阵，作为上述参考噪声特征。

上述图像生成模型是预先训练好的基于神经网络的模型，用于将输入的目标文本编码和参考噪声特征进行混合以获得包含两者特征的图像，并可以通过去噪的方式去除参考噪声特征的影响，最终获得与目标描述文本编码对应的预测噪声特征。

在一种应用场景中，上述图像生成模型是预先训练好的扩散模型，但不作为具体限定。

本实施例中，上述根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征，包括：

其中，上述预设的迭代终止条件是预先设置的用于限定去噪过程完成的条件，可以是去噪迭代次数达到去噪次数阈值(例如50次)；或者预测噪声特征收敛，例如获得的第一预测噪声特征与第二噪声特征之间的损失值达到预设的损失阈值；还可以有其它条件，在此不作具体限定。

本实施例中，上述预测噪声特征为预测噪声矩阵，上述参考噪声特征为参考噪声矩阵；

上述根据上述预测噪声特征对上述参考噪声特征进行去噪，以更新上述参考噪声特征，包括：

将上述预测噪声矩阵与上述参考噪声矩阵相减获得差值矩阵；

根据上述差值矩阵更新上述参考噪声矩阵。

图2是本申请实施例提供的一种图像生成方法的具体流程示意图，如图2所示，本实施例中，先获取用户输入的自定义的英文目标描述文本，包括guitar、frog、sunglasses和gym suit，然后通过预设的文本编码器进行文本编码获得对应的目标文本编码。获取基于高斯分布生成的参考噪声矩阵，将参考噪声矩阵和目标文本编码输入已训练的图像生成模型，获得已训练的图像生成模型输出的预测噪声矩阵。用预测噪声矩阵对原始的参考噪声矩阵进行去噪，得到更新后的参考噪声矩阵，例如，用参考噪声矩阵减去预测噪声矩阵，将获得的差值矩阵作为更新后的参考噪声矩阵。

返回执行将参考噪声矩阵和目标文本编码输入已训练的图像生成模型的步骤，直至迭代次数达到50次后获得满足预设的迭代终止条件的预测噪声矩阵。如此，经过多次去噪可以去除预测噪声矩阵中参考噪声矩阵的影响，获得与目标文本矩阵更加匹配的预测噪声矩阵，从而使生成的目标图像更符合目标描述文本的描述。最后将预测噪声矩阵输入到预设的图像解码器即可生成与上述目标描述文本匹配的目标图像。

根据图2可知，最终生成的目标图像符合目标描述文本(包括guitar、frog、sunglasses和gym suit)的描述，获得了较好的图像生成效果。

在一些实施例中，上述图像生成模型根据如下步骤进行训练：

其中，上述获取训练噪声特征和训练样本，包括：

获取训练噪声特征；

其中，与上述训练描述文本匹配的训练图像中包括训练描述文本所描述的图像元素。

需要说明的是，模型训练过程中使用的训练噪声特征和模型使用过程中所使用的参考噪声特征所对应的数据格式和数据生成方式相同。具体的，上述训练噪声特征和上述参考噪声特征是使用相同的概率分布模式和图像大小生成的二维矩阵。例如，本实施例中，上述训练噪声特征也是使用高斯分布生成的宽高都是512的二维矩阵。

在一种应用场景中，参考噪声矩阵和训练噪声矩阵中的每一个元素，以及每一个目标文本编码都是向量，且各个向量的维度相同，例如都为768维的向量，以获得更好的图像处理效果。

需要说明的是，不同的训练样本可以使用不同的训练噪声特征，也可以使用相同的训练噪声特征，在此不作具体限定。

图3是本申请实施例提供的一种图像生成模型训练过程示意图，需要说明的是，图3中仅示出了训练过程中的一次处理过程。如图3所示，训练描述文本是英文格式的文本。针对一组匹配的训练描述文本和训练图像，分别输入预设的文本编码器和图像编码器，获得对应的训练文本编码和训练图像编码矩阵(即矩阵形式的训练图像编码特征)。针对训练图像编码矩阵，将其与训练噪声矩阵(即矩阵形式的训练噪声特征)融合(例如矩阵相加)获得噪声图像编码矩阵(即矩阵形式的噪声图像编码特征)。将噪声图像编码矩阵和训练文本编码输入图像生成模型，获得图像生成模型输出的预测噪声矩阵(即矩阵形式的预测噪声特征)。本实施例中，训练过程中使用的目标函数和优化器分别是平均误差函数(L2)和亚当(Adam)优化器。

在一种应用场景中，也可以根据预测噪声矩阵对噪声编码矩阵进行更新，针对一组样本进行多次训练，获得更好的训练效果。

需要说明的是，训练过程中使用特定应用程序对应的特定风格图像作为样本，从而基于上述图像生成模型实现特定风格的定制化图像生成，有利于提高图像生成的多样性和可控性。

图4是本申请实施例提供的一种生成的目标图像示意图，如图4所示，基于相同风格的图像训练获得的图像生成模型进行图像生成时，生成的目标图像风格统一，但各不相同，能够提高图像生成的多样性和可控性，从而提升用户使用体验。

需要说明的是，本实施例中图2至图4中以灰度图像作为示例，实际使用过程中对应的图像是彩色图像，在此不作具体限定。

103、根据上述预测噪声特征，通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。

需要说明的是，本实施中，模型训练和模型使用过程中所使用的文本编码器是同一文本编码器；而模型训练过程中使用的图像编码器与模型使用过程中所使用的图像解码器是相对应的，如此，可以降低文本和图像的编码解码过程引入的干扰，提高最终获得的目标图像的准确性，使得获得的目标图像更符合目标描述文本的描述，提升用体验。上述文本编码器用于将文本编码成向量，可以使用BERT等模型实现，上述图像编码器用于将图像编码成矩阵，而图像解码器用于将图像矩阵解码还原成图像。

本申请实施例第一方面公开一种图像生成方法，可以获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码；获取参考噪声特征，根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征；根据上述预测噪声特征，通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。

对应于本申请实施例第一方面提供的图像生成方法，本申请实施例第二方面提供一种图像生成装置。其中名词的含义与本申请实施例第一方面提供的图像生成方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5是本申请实施例提供的一种图像生成装置的结构框图，该装置包括：

数据获取模块501，用于获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码；

数据处理模块502，用于获取参考噪声特征，根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征；

图像生成模块503，用于根据上述预测噪声特征，通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。

在一些可选的实施例中，上述数据处理模块502具体用于：

在一些可选的实施例中，上述预测噪声特征为预测噪声矩阵，上述参考噪声特征为参考噪声矩阵；

根据上述差值矩阵更新上述参考噪声矩阵。

在一些可选的实施例中，上述数据获取模块包括：

文本获取单元，获取待生成目标图像的目标描述文本；

获取训练噪声特征；

在一些可选的实施例中，上述数据获取模块501包括文本获取单元，用于：

本申请实施例公开了一种图像生成装置，通过数据获取模块501获取待生成目标图像的目标描述文本，对上述目标描述文本进行编码处理获得目标文本编码；通过数据处理模块502获取参考噪声特征，根据上述目标文本编码、上述参考噪声特征和图像生成模型预测上述待生成目标图像的预测噪声特征；通过图像生成模块503根据上述预测噪声特征，通过预设的图像解码器，生成与上述目标描述文本匹配的目标图像。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

相应的，本申请实施例还提供一种电子设备，该电子设备可以为终端，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，PersonalComputer)、个人数字助理(PDA，Personal Digital Assistant)等终端设备。如图6所示，图6是本申请实施例提供的电子设备的结构示意图。该电子设备600包括有一个或者一个以上处理核心的处理器601、有一个或一个以上计算机可读存储介质的存储器602及存储在存储器602上并可在处理器上运行的计算机程序。其中，处理器601与存储器602电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器601是电子设备600的控制中心，利用各种接口和线路连接整个电子设备600的各个部分，通过运行或加载存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备600的各种功能和处理数据，从而对电子设备600进行整体监控。处理器601可以是中央处理器CPU、图形处理器GPU、网络处理器(NP，NetworkProcessor)等，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。

在本申请实施例中，电子设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，例如：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图6所示，电子设备600还包括：触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607。其中，处理器601分别与触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607电性连接。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏603可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏603可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器601，并能接收处理器601发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器601以确定触摸事件的类型，随后处理器601根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏603而实现输入和输出功能。但是在某些实施例中，触控面板与显示面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏603也可以作为输入单元606的一部分实现输入功能。

射频电路604可用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路605可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。音频电路605可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路605接收后转换为音频数据，再将音频数据输出处理器601处理后，经射频电路604以发送给比如另一电子设备，或者将音频数据输出至存储器602以便进一步处理。音频电路605还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

输入单元606可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源607用于给电子设备600的各个部件供电。可选的，电源607可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源607还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图6中未示出，电子设备600还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种图像生成方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种图像生成方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的图像生成方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像生成方法，其特征在于，包括：

获取待生成目标图像的目标描述文本，对所述目标描述文本进行编码处理获得目标文本编码；

获取参考噪声特征，根据所述目标文本编码、所述参考噪声特征和图像生成模型预测所述待生成目标图像的预测噪声特征；

根据所述预测噪声特征，通过预设的图像解码器，生成与所述目标描述文本匹配的目标图像。

2.根据权利要求1所述的图像生成方法，其特征在于，所述根据所述目标文本编码、所述参考噪声特征和图像生成模型预测所述待生成目标图像的预测噪声特征，包括：

将所述目标文本编码和所述参考噪声特征输入所述图像生成模型，获得第一预测噪声特征；

根据所述第一预测噪声特征对所述参考噪声特征进行去噪，以更新所述参考噪声特征；

将所述目标文本编码和更新后的所述参考噪声特征输入所述图像生成模型，得到第二预测噪声特征，直至得到满足预设的迭代终止条件的预测噪声特征。

3.根据权利要求2所述的图像生成方法，其特征在于，所述预测噪声特征为预测噪声矩阵，所述参考噪声特征为参考噪声矩阵；

所述根据所述预测噪声特征对所述参考噪声特征进行去噪，以更新所述参考噪声特征，包括：

将所述预测噪声矩阵与所述参考噪声矩阵相减获得差值矩阵；

根据所述差值矩阵更新所述参考噪声矩阵。

4.根据权利要求1所述的图像生成方法，其特征在于，所述获取待生成目标图像的目标描述文本，对所述目标描述文本进行编码处理获得目标文本编码，包括：

获取待生成目标图像的目标描述文本；

对所述目标描述文本进行分词，获得至少一个目标词语；

将所述目标词语输入预设的文本编码器，通过所述文本编码器分别对各所述目标词语进行编码，获得各所述目标词语对应的目标文本编码。

5.根据权利要求1所述的图像生成方法，其特征在于，所述图像生成模型根据如下步骤进行预先训练：

获取训练噪声特征和训练样本，其中，每一所述训练样本包含训练文本编码，以及所述训练文本编码对应的训练图像编码特征；

根据所述训练噪声特征和所述训练图像编码特征获取噪声图像编码特征；

将所述训练文本编码和所述噪声图像编码特征输入所述图像生成模型，以获取所述图像生成模型输出的预测噪声特征；

根据所述预测噪声特征和所述训练噪声特征，对所述图像生成模型的模型参数进行调整，得到训练后的图像生成模型。

6.根据权利要求5所述的图像生成方法，其特征在于，所述获取训练噪声特征和训练样本，包括：

获取训练噪声特征；

获取训练描述文本，以及与所述训练描述文本匹配的训练图像；

通过预设的文本编码器对所述训练描述文本进行文本编码，以获得所述训练文本编码；

通过预设的图像编码器对所述训练图像进行图像编码，以获得所述训练图像编码特征；

将所述训练文本编码和所述训练图像编码关联设置为训练样本。

7.根据权利要求1至6任意一项所述的图像生成方法，其特征在于，所述获取待生成目标图像的目标描述文本，包括：

响应于在所述文本输入界面的文本输入操作和/或文本选择操作，获取所述目标元素类型对应的文本数据；

根据所述目标元素类型和所述文本数据获取所述目标描述文本。

8.一种图像生成装置，其特征在于，包括：

数据获取模块，用于获取待生成目标图像的目标描述文本，对所述目标描述文本进行编码处理获得目标文本编码；

数据处理模块，用于获取参考噪声特征，根据所述目标文本编码、所述参考噪声特征和图像生成模型预测所述待生成目标图像的预测噪声特征；

图像生成模块，用于根据所述预测噪声特征，通过预设的图像解码器，生成与所述目标描述文本匹配的目标图像。

9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至7任一项所述的图像生成方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的图像生成方法中的步骤。