CN116306588A

CN116306588A - 一种基于交互的图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN116306588A
Application number: CN202310336814.1A
Authority: CN
Inventors: 赵东恩; 林啸洋; 周亮; 白钰
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-06-23

Abstract

本申请提供了一种基于交互的图像生成方法、装置、电子设备及存储介质，依据本申请实施例，通过获取基于交互组件提交的图像描述信息，其中，交互组件可以包括内容描述输入组件和多个样式描述输入组件，内容描述输入组件可以配置为接收图像内容描述信息，样式描述输入组件可以配置为接收图像样式描述信息以及对应的信息权重，再依据图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据，将描述文本数据输入图像生成模型，以由图像生成模型确定与描述文本数据匹配的图像特性信息，并依据图像特性信息生成目标图像。通过上述方案，可以提升人工智能图像生成结果的可控性，提高用户体验。

Description

一种基于交互的图像生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于交互的图像生成方法、装置、电子设备及存储介质。

背景技术

随着人工智能的高速发展，通过文本语言描述生成图像是现代人工智能在计算机视觉领域的一个重要方向，也为需要创作图像的用户带来了便利。由于采用人工智能生成图像对于文本描述具有固定的程序化语言的要求，当用户输入文本描述之后，便无法对人工智能生成图像的过程做任何介入，故使得使用人工智能生成图像的结果不可控，这也是当前该行业的痛点。在用户输入的文本描述不符合相应程序化语言要求的情况下，生成的图像结果往往不符合用户的预期，或者需要经过若干次重新输入文本描述至使用人工智能生成图像的过程才可以挑选出符合预期的图像，既浪费计算资源，又伤害用户体验。

因此，亟需提供一种解决方案，以提升人工智能图像生成结果的可控性，提高用户使用人工智能生成图像的体验。

发明内容

本申请实施例提供一种基于交互的图像生成方法、装置、电子设备及存储介质，以解决上述一个或多个技术问题。

第一方面，本申请实施例提供了一种基于交互的图像生成方法，包括：

获取基于交互组件提交的图像描述信息；所述交互组件包括内容描述输入组件和多个样式描述输入组件，所述内容描述输入组件配置为接收图像内容描述信息，所述样式描述输入组件配置为接收图像样式描述信息以及对应的信息权重；

依据所述图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据；

将所述描述文本数据输入图像生成模型，以由所述图像生成模型确定与所述描述文本数据匹配的图像特性信息，并依据所述图像特性信息生成目标图像。

第二方面，本申请实施例提供了一种基于交互的图像生成装置，包括：

描述信息获取模块，用于获取基于交互组件提交的图像描述信息；所述交互组件包括内容描述输入组件和多个样式描述输入组件，所述内容描述输入组件配置为接收图像内容描述信息，所述样式描述输入组件配置为接收图像样式描述信息以及对应的信息权重；

文本数据生成模块，用于依据所述图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据；

目标图像生成模块，用于将所述描述文本数据输入图像生成模型，以由所述图像生成模型确定与所述描述文本数据匹配的图像特性信息，并依据所述图像特性信息生成目标图像。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

与相关技术相比，本申请具有如下优点：

依据本申请实施例，通过获取基于交互组件提交的图像描述信息，其中，交互组件可以包括内容描述输入组件和多个样式描述输入组件，内容描述输入组件可以配置为接收图像内容描述信息，样式描述输入组件可以配置为接收图像样式描述信息以及对应的信息权重，再依据图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据，将描述文本数据输入图像生成模型，以由图像生成模型确定与描述文本数据匹配的图像特性信息，并依据图像特性信息生成目标图像。通过上述方案，可以提升人工智能图像生成结果的可控性，提高用户体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请的一些实施方式，而不应将其视为是对本申请范围的限制。

图1示出了本申请实施例中提供的一种基于交互的图像生成方案的一个应用示例的示意图；

图2示出了本申请实施例中提供的一种基于交互的图像生成方案中图像生成模型的处理流程示意图；

图3示出了本申请实施例中提供的一种基于交互的图像生成方法的流程图；

图4示出了本申请实施例中提供的一种基于交互的图像生成装置的结构框图；以及

图5示出了用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的构思或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的，而非限制性的。

为便于理解本申请实施例的技术方案，以下对本申请实施例的相关技术进行说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。

如今市面上使用人工智能根据文本描述生成图像的技术方案，一般采用的是生成对抗网络模型(GAN)，这种网络模型通过模型中的判别器和生成器反复碰撞与对抗的形式生成图片，出图速度慢且耗费计算资源；另外，在前端与用户交互的部分，市面上的文本生成图像的人工智能产品一般只为用户提供输入一段内容描述的组件，例如prompt描述(计算机编程语言中的一个方法，主要用处是显示提示对话框，在人工智能的语义生成中可以是用户输入的文本描述)。但是由于人工智能对于文本描述具有固定的程序化语言的要求，例如需要用户在输入内容描述时，将对描述内容主语、谓语、宾语等主干内容的修饰词或限定条件等，使用“逗号+空格+逗号”的形式与主干内容隔开，在用户输入的文本描述不符合相应程序化语言要求的情况下，生成的图像结果往往较为抽象，不符合用户的预期，或者需要用户不断调整描述内容，经历较长时间多轮生成才可能达到用户预期，这既浪费计算资源，又伤害用户体验。因此，有必要提出一种新的图像生成方案，用以根据用户输入的文本描述在较短的时间内生成符合用户预期的图像，以节省计算资源，提升人工智能图像生成结果的可控性，提高用户体验。

有鉴于此，本申请实施例提供了一种基于交互的图像生成的方法、装置、电子设备和存储介质，以解决上述全部或部分技术问题。

图1是本申请实施例的图像生成方案的一个应用示例的示意图。本申请实施例的方案可以实现为一种基于交互的图像生成装置，与本申请的图像生成装置相对应的，可以提供用于提交图像生成请求的客户端、页面或是程序功能插件等交互组件，用户可以基于该交互组件输入需要生成的图像的文本描述内容，由交互组件向图像生成端提交图像生成的请求，再由生成端的图像生成装置完成图像的生成后，反馈图像生成的结果。

这里的用户可以是具有绘制图像需求的商家、个人或者具有图像创作需求的相应平台等，例如广告商、设计师、宣传海报制作者等等，本申请对此并不做任何限制。用户输入的文本描述内容，可以是基于交互组件提交的图像描述信息，例如可以根据用户输入的语音信息、图标信息和/或文字信息等，由交互组件将这些信息转化为文本描述信息后，提供至图像生成端。

本方案拆解了工程化的语义输入模式，以结构化的方式在心智上引导用户步骤化的完成图像生成的条件的输入，帮助用户规避掉了出错的可能性，将前端需要用户输入的程序化语言的内容转化至后端生成，可以提升人工智能生成图像的稳定性，减少计算时间，节省计算资源。相应的，用户每添加一个图像样式描述信息(标签)，相当于对原有的图像内容描述增加了限定条件或排期条件等，样式描述信息中的内容相对于内容描述信息中的内容类似于递进关系，由此可以将复杂的语义输入拆解为模块化的流程，为用户提供类似填表单一样的无感、舒适的操作体验。

一种典型的应用场景是，在使用云投屏进行信息发布的场景中，由于云投屏可以实现自有广告或者第三方广告的接入和静态、动态的投放，一些商家的线下门店或者电梯等广告需要在云投屏设备上进行投放时，有的商家需要制作自有广告来宣传自身的商品或服务，对于自有广告中使用的图像，若直接从网络下载可能会侵犯他人的著作权，若委托设计师进行设计所需费用可能较高，此时，如果可以通过人工智能将商家使用文本描述的场景生成图像，那么既不会侵权也节省费用。

如图1所示，在前端界面的操作路径上，若在prompt描述处输入“一个站在火车前的女孩，褐色头发，艺术风格，绿色火车，半转身”，经过人工智能根据这段文本描述生成的图像效果可能含有较多错误，例如图1上半部分的图片中，图片的背景中不太能看出是火车，且图片中的女孩姿态并非“站在火车前、半转身”，同时该女孩的手肘呈现的弯曲程度并非正常人类的弯曲程度，可见该图片并不符合用户的预期，并且采用这种方案需要用户在prompt描述处输入较多的内容，若生成符合预期的图片可能需要若干次的重新输入文本描述和生成图片的过程，增加了用户的时间成本，浪费计算资源，并且还不能排除用户不想要的内容。

而本方案在前端界面的交互组件中添加了多个样式描述输入组件，包括用于输入正向样式描述信息的组件(标签样式选择)和用于输入负向样式描述信息的组件(排除样式选择)，正向样式描述可以是用户希望生成的图像中含有的图像内容，负向样式描述可以是用户在生成的图像中不希望含有的图像内容。其中，在本方案中，由于原prompt描述“一个站在火车前的女孩，褐色头发，艺术风格，绿色火车，半转身”中不含有负向样式描述，因此可以将该描述拆分为“内容描述(prompt描述)”和“正向样式描述(标签样式选择)”两部分，即在prompt描述处输入“一个站在火车前的女孩”，在正向样式描述(标签样式选择)处选择“褐色头发”、“艺术风格”、“绿色火车”、“半转身”。同时，也可以在负向样式描述(排除样式选择)处选择一些不希望生成的样式，例如“错误的手”、“杂乱背景”、“正面人物”、“背面人物”。另外，在样式描述输入组件中，还可以在对应选择的样式描述信息后，添加该样式描述信息对应的信息权重，例如可以在正向样式描述“褐色头发”后添加信息权重“3”，在其他样式描述信息没有添加信息权重的情况下(默认权重可以为“0”)，表示“褐色头发”在正向样式描述中处于排序最高的位置。

由此，当前端的交互组件将这些信息提交至图像生成端后，图像生成端可以依据图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据，这些结构化的描述文本数据可以是与前端交互组件中输入的信息具有映射关系的计算机程序语言。其中，图像内容描述信息部分对应的描述文本数据可以是：prompt＝“a girl standingin front of the train”，对应“一个站在火车前的女孩”；图像样式描述信息中的负向样式描述对应的描述文本数据可以是：Negative prompt＝“wrong hand，clutteredbackground，front side of person，reverse side of person”，对应“错误的手、杂乱背景、正面人物、背面人物”；图像样式描述信息中的负向样式描述对应的描述文本数据可以是：prompt＝“{{{CG}}}”，其中“CG”对应“褐色头发”，“{{{}}}”对应“褐色头发”的权重值为3，即选择增加几个权重便出现几个“{}”。相应的，若在样式描述信息后添加信息权重为“-2”，那么该样式描述信息对应的描述文本数据可以是“(())”，即选择减少几个权重便会出现几个“()”，该部分描述文本数据可以与图像内容描述信息部分对应的描述文本数据合并显示，也可以分开显示。进而，可以将上述结构化的描述文本数据输入图像生成模型，由图像生成模型确定与描述文本数据匹配的图像特性信息，并依据图像特性信息生成对应表征该结构化的描述文本数据的目标图像。

因此，通过上述方案，本申请将人工智能生成图像中的程序化语言的命令描述转换成直观前端输入组件结构，拆解了工程化的语义输入模式，以结构化的形式引导用户在前端界面通过正向样式描述选择想要的生成图像风格、样式、姿态等等，通过负向样式描述排除掉生成结果中不需要出现的图像风格、内容、姿态等等，并在前端界面增加了权重控制组件，通过权重的加减对生成的图像内容进行结果导向的排序，从而更精准的生成符合用户预期的图像，提升了人工智能生成图像的可控性，令晦涩难懂的开发输入条件简化成为“一句话描述你想要的内容”和“选择你想要的风格选项”这样容易理解的心智选择，提升了用户体验。另外，在负向样式描述中，本方案还默认置入了百余种黄色、暴力、恐怖类的负向样式描述，可以确保图像生成内容的合规性。

相应的，本申请实施例还示出了一种基于交互的图像生成方案中图像生成模型的处理流程示意图。如图2所示，本申请实施例中的图像生成模型可以以潜在扩散模型(stable-diffusion)为基础，通过调用CLIP模型(Contrastive Language-Image Pre-training，基于对比文本-图像对的预训练方法或者模型，是一种基于对比学习的多模态模型)对文本描述进行解析，进而通过该潜在扩散模型根据解析后的文本描述生成图像。可选的，本方案也可以以其他文图生成模型为基础，例如使用GANs网络模型(生成式对抗网络模型)、自回归网络模型(Autoregressive Model)等人工智能绘画模型。

具体而言，首先，对应于前端界面不同的交互组件，可以分别调用多个CLIP模型的编码器对描述文本数据对应的文本特征进行提取，并生成与该文本特征匹配的图像特性信息作为与该描述文本数据相关的图像特性信息。例如，可以调用3个CLIP模型的编码器，其中编码器1可以用于接收来自于“内容描述(prompt描述)”中的结构化描述文本数据和权重，编码器2可以用于接收来自于“图像正向样式描述(标签样式选择)”中的结构化描述文本数据和权重，编码器3可以用于接收来自于“图像负向样式描述(排除样式选择)”中的结构化描述文本数据和权重，CLIP模型中的编码器1、编码器2、编码器3可以分别提取这几类结构化描述文本数据中的文本特征，并将提取的文本特征整合后生成与该文本特征匹配的图像特性信息，生成的方式可以是将上述文本特征转化为具有语义的向量，并作为文本嵌入输入至语义分割模型进行进一步的处理，进而可以依据上述图像特性信息生成对应表征上述结构化的描述文本数据的目标图像。其中，文本嵌入的具有语义的向量，可以是77个含有768个维度的token(77×768的词向量或空间位置向量)嵌入向量。

其次，在将文本特征转化为具有语义的向量作为文本嵌入，输入至语义分割模型的同时，可以获取依据随机种子生成的初始图像的潜在图像表示，并使用前述图像特性信息对该初始图像的潜在图像表示进行去噪处理，再使用自编码的解码器依据去噪处理后的潜在图像表示生成目标图像。也即，可以获取依据随机种子生成的初始图像的潜在图像表示，这里的随机种子可以是采用高斯噪声加噪处理后的初始图像，使用随机种子生成大小为64×64的初始图像的潜在图像表示(初始随机潜在图像表示)后，可以将该64×64的初始图像的潜在图像表示和前述77×768的文本嵌入一同作为语义分割模型的输入，这里的语义分割模型可以采用U-Net模型(new-Net，一种包括编码器和解码器的U型结构的神经网络模型)。其中，U-Net模型中可以包括若干transformer模型(变形模型，以自注意力为主要机制的特定模型)，由于transformer模型的输入是一个序列的向量组成的一个矩阵，通过计算矩阵内部各个向量之间的关系，将其中的无效信息去除、有效信息的加强，并更新矩阵中的向量。相比于传统的语义分割模型，这种包括transformer模型的语义分割模型参数更大、存储信息更多、记忆能力更强。

接下来，语义分割模型可以在以文本嵌入为条件的同时，迭代的对初始图像的潜在图像表示进行去噪。初始图像的潜在图像表示可以是一个由噪声组成的初始多维数组(结构化的数字列表，也叫张量tensor)。也即，可以使用图像特性信息对初始图像的潜在图像表示进行去噪处理，得到去噪后的潜在图像表示，再根据去噪后的潜在图像表示以及描述文本数据，重新确定与描述文本数据相关的图像特性信息，最后根据重新确定的图像特性信息对去噪后的潜在图像表示再次进行去噪处理，其中，重新确定图像特性信息至再次进行去噪处理的过程迭代执行至少一次。在语义分割模型第一次对初始图像的潜在图像表示去噪后，可以得到第一次去噪后的潜在图像表示(图2中语义分割模型下方输出的潜在图像表示)。不过，只经过第一次去噪后的潜在图像表示可能无法准确的得到与前述描述文本数据对应的目标图像，因此，可以根据去噪后的潜在图像表示以及描述文本数据，重新确定与描述文本数据相关的图像特性信息，并根据重新确定的图像特性信息对去噪后的潜在图像表示再次进行去噪处理。这一过程中可以重复N步调度程序步骤(即潜在扩散模型的扩散过程，也即去噪过程)，相应的，还可以根据重新确定的图像特性信息对调度程序算法进行重构，可以调整去噪强度或者去噪速度等，使其更好的生成目标图像所需的潜在图像表示。例如，经过语义分割模型进行去噪处理后的潜在图像表示的形式可以是噪声残差，调度程序算法可以根据前一步输出的图像特性信息(噪声表示)和噪声残差，计算预测的再次去噪后的潜在图像表示。上述迭代过程，可以看作语义分割模型结合文本嵌入的语义信息，从模型参数(历史训练的数据)中寻找与该语义信息对应的图像相关联的图像特性信息，然后将这些图像的共性加入生成的潜在图像表示中，每次迭代都可以获得更多的关联的图像特性信息，因此，迭代的次数越多，生成的图像质量也会越高。当然，可以在语义分割模型中设置迭代次数，本申请对此并不做任何限制。

采用上述方式，可以在信息空间(潜在空间)中对文本描述信息进行处理(扩散)，将输入的文本嵌入(可以是具有语义的向量)和初始图像的潜在图像表示(可以是由噪声组成的初始多维数组)转化成去噪后的潜在图像表示(可以是一个经过处理的信息阵列)，相比于采用其他模型在像素空间对像素进行处理的过程，这种方式可以节省计算资源和存储空间，让文图生成能够在消费级的GPU较短时间内生成图像，降低了文图生成的门槛，提高了图像生成的速度，并且可以获得图像内容更加和谐的目标图像。

最后，可以使用自编码的解码器依据去噪处理后的潜在图像表示生成目标图像。这里自编码的解码器可以采用变分自编码器(VAE，Variational Autoencoders)的解码器，这种解码器可以在每次迭代中，经过“编码—解码”的输出与初始数据进行比较，并通过反向传播来更新网络的权重。此外，还可以在结构化的描述文本数据的关联位置提供所述目标图像，最终输出的图像可以是512×512的目标图像。

本申请实施例的执行主体可以是应用程序、服务、实例、软件形态的功能模块、虚拟机(Virtual Machine，VM)、容器或云服务器等，或者具有数据处理功能的硬件设备(如服务器或终端设备)或硬件芯片(如CPU、GPU、FPGA、NPU、AI加速卡或DPU)等。实现图像生成的装置可以部署在提供相应服务的应用方的计算设备或提供算力、存储和网络资源的云计算平台上，云计算平台对外提供服务的模式可以是IaaS(Infrastructure as aService，基础设施即服务)、PaaS(Platform as a Service，平台即服务)、SaaS(Software as aService，软件即服务)或DaaS(Data as a Service，数据即服务)。以平台提供SaaS软件即服务(Software as a Service)为例，云计算平台可以利用自身的计算资源提供图像生成模型的训练或图像生成模块的功能执行，具体的应用架构可以根据服务需求进行搭建。例如，平台可以向使用平台资源的应用方或个人提供基于上述模型的构建服务，进一步基于相关客户端或服务器等设备提交的图像生成请求调用上述模型和实现在线或离线图像生成的功能。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决前述技术问题进行详细说明。所列举的若干具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。以下将结合附图，对本申请的实施例进行详细描述。

本申请实施例提供了一种基于交互的图像生成方法，如图3所示为本申请一实施例的图像生成方法300的流程图，该方法300可以包括：

在步骤S301中，获取基于交互组件提交的图像描述信息，该交互组件可以包括内容描述输入组件和多个样式描述输入组件，内容描述输入组件可以配置为接收图像内容描述信息，样式描述输入组件可以配置为接收图像样式描述信息以及对应的信息权重。由此，可以将人工智能生成图像中的程序化语言的命令描述转换成直观、结构化的前端输入组件结构，令晦涩难懂的开发输入条件简化成为“一句话描述你想要的内容”和“选择你想要的风格选项”这样容易理解的心智选择，可以提升用户体验。

本申请实施例中，涉及到的交互组件，可以是语音交互组件、文字交互组件、图标交互组件或多种交互组件的结合等，例如，可以为用户提供语音输入的端口，根据用户输入的语音信息，由语音交互组件将该语音信息转化为对应的文本描述信息后，再进行进一步的处理。

其中，内容描述输入组件可以为用户提供输入图像内容描述信息的页面端口，多个样式描述输入组件可以为用户提供输入样式描述文本或选择相应的样式描述标签图标的页面端口，使得用户可以通过该端口输入或选择与所需图像相关的描述信息，进而由交互组件将这些信息转化为图像描述信息后再进行处理。一般而言，内容描述输入组件中输入的是一句话或者一段话，用来表示目标图像中的主体，例如“森林中的房子”，可选的，也可以设定一个内容描述输入的字数阈值，例如可以设置字数限定为200字；多个样式描述输入组件中的内容可以是对内容描述输入组件中的内容进行的限定，例如“艺术风格”、“桦树”、“红色”等。

相应的，可以将样式描述输入组件配置为接收图像样式描述信息以及对应的信息权重，进而可以根据这些权重，对样式描述输入组件中的相关描述进行排序，并根据排序结果生成目标图像中对应的部分，权重高的部分在目标图像中可以分布在主要位置或所占比例较大或优先生成等，权重低的部分在目标图像中可以处于边缘位置或所占比例较小或不优先生成等。

一种典型的示例是，样式描述输入组件可以接收所有图像样式描述信息对应的信息权重，可以通过比较这些权重的大小，为相应的图像样式描述信息进行优先级的排序，例如，绿色权重为+1，蓝色权重为+2时，将会在最终的目标图像中优先生成蓝色。可选的，可以对权重只做优先级的区分而不做程度的区分，例如，绿色的权重为+1，蓝色的权重为+100时，在没有其他权重的情况下，蓝色权重为+100与权重为+2可以是同一个效果，即蓝色均排在第一位，优先生成。

相应的，还可以配置内容描述输入组件中的内容的优先级总是高于所有样式描述输入组件的优先级。例如，内容描述输入组件中的内容是“一片森林”，用户未选择该内容的权重，初始值将会默认为权重为0；而在样式描述输入组件中，用户添加了“绿色+1”、“蓝色+3”的描述和对应权重，那么在这种情况下，若为内容描述输入组件添加了优先级为最高的配置，那么将自动为内容描述输入组件中的内容“一片森林”增加大于“+3”的权重值，可能是“+4”、“+5”或“+6”等，以确保内容描述输入组件中的内容被优先生成。因此，通过接收相应的权重，可以优先生成权重较高的图像内容，或为权重较高的图像内容分配更多的多的资源做出细分和绘制。

在一种可能的实现方式中，前述样式描述输入组件可以配置为接收图像正向样式描述信息和图像负向样式描述信息，还可以通过确定与描述文本数据中与图像内容描述信息以及图像正向样式描述信息正相关，且与图像负向样式描述信息负相关的图像特性信息的方式，确定与描述文本数据匹配的图像特性信息。

可选的，根据图像正向样式描述信息和负向样式描述信息，可以设置两个样式描述输入组件，分别为用于输入正向样式描述信息的组件和用于输入负向样式描述信息的组件，其中，图像正向样式描述信息可以与图像内容描述信息正相关，例如可以是用户希望生成的图像中含有的图像内容，可以包括人物、姿态、画风等等；图像负向样式描述信息可以与图像内容描述信息负相关，例如可以是用户在生成的图像中不希望含有的图像内容，这部分内容不会在最终生成的图像中生成，选择或输入相应的图像负向样式描述信息，即在使用本方案的图像生成模型生成图像的过程中，图像生成模型不会调用相应的图像负向样式描述信息对应的图像特性信息。在上述样式描述输入组件中，还可以在对应选择的样式描述信息后，添加该样式描述信息对应的信息权重。另外，在负向样式描述信息中，还可以默认置入黄色、暴力、恐怖类的负向样式描述，以确保图像生成内容的合规性。

在样式描述输入组件中，可以为用户提供相应的标签，用户可以通过点击选择的方式选择所需的正向样式描述信息和/或负向样式描述信息，而无需输入文字。同时，还可以用户在内容描述输入组件中输入的图像内容描述信息，在用户可见的前端界面中为用户显示与其输入的图像内容描述信息相关联的正向样式描述信息标签和/或负向样式描述信息标签，例如可以根据用户输入的关键字显示对应的标签。另外，用户也可以在样式描述输入组件中输入正向样式描述信息和/或负向样式描述信息，或者通过搜索的形式搜索需要的正向样式描述信息和/或负向样式描述信息，本申请对此并不做任何限制。由此，可以节省用户输入图像内容信息的时间，提高用户体验。

进一步的，对于本方案中的图像生成模型的底模型中不包含的正向样式描述信息或负向样式描述信息的特定标签，可以使用超网络模型对该特定标签进行训练，并将训练完成后将超网络模型拟合至底模型中，拟合完成后，相应的标签可以在用户可见的前端界面上显示。其中，训练完成的超网络模型可以是PT文件(Portable Document Format，可移植文档格式)的格式。对超网络模型进行训练的过程可以通过先选取足够多的预训练的标签对应的图像，将这些图像标注上相应的标签，再根据图像和标签训练超网络模型，最终生成PT文件格式的模型，进而将该PT文件封装至底模型中。由此可以对本方案中的图像生成模型做持续的优化和更新，使得本方案中的图像生成模型可以适应用户的更多需求。

可选的，当训练后的特定标签模型与底模型中原有的标签内容出现重叠时，可以设置模型调用的顺序或优先级。例如，若选择“树林”这个标签，当训练的特定标签与底模型中均含有“树林”时，可以设置有点调用训练的特定标签中的“树林”内容。也即，训练的特定标签内容可以看作是原生相机中的滤镜模式，底模型可以看作原生相机中的原生模式，在生成同一个内容时，可以优先生成滤镜模式的内容。当然，也可以不设置优先级，而随机生成原生模式或滤镜模式，供用户选择。

由此，本申请实施例可以将人工智能生成图像中的程序化语言的命令描述转换成直观、结构化的前端输入组件结构，引导用户在前端界面通过正向样式描述选择想要的生成图像风格、样式、姿态等等，通过负向样式描述排除掉生成结果中不需要出现的图像风格、内容、姿态等等，并在可以前端界面增加权重控制组件，通过权重的加减对生成的图像内容进行结果导向的排序，从而更精准的生成符合用户预期的图像，提升人工智能生成图像的可控性。

在一些实施例中，获取基于交互组件提交的图像描述信息中，至少部分图像描述信息还可以表示为语音和/或图标，还可以通过对语音形式的图像描述信息进行语音识别，得到对应的文字形式的图像描述信息，和/或，通过查找图标形式的图像描述信息对应的文字含义，得到对应的文字形式的图像描述信息。采用这种方式可以为用户提供更为多元化的图像描述信息的内容输入形式，进一步为用户提供便利，提高用户的使用体验。

在步骤S302中，依据前述图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据。这类结构化的描述文本数据可以是计算机可以识别的语言，例如将用户输入的中文、日文、韩文等不同的语言转化为计算机可以识别的英文，或将用户输入的不符合计算机语法的语言以符合计算机语法的方式进行重新排列等，以便于通过计算机进一步将该结构化的描述文本数据转化为目标图像。

其中，结构化的描述文本数据，可以是根据前述图像内容描述信息、图像样式描述信息以及信息权重生成的与前述图像内容描述信息、图像样式描述信息以及信息权重具有映射关系的计算机程序语言。例如，用户在前述内容描述输入组件中输入“森林中的房子”，在前述用于输入正向样式描述信息的组件中输入“艺术风格+3”(权重为3)、“桦树+1”(权重为1)，在前述用于输入负向样式描述信息的组件中输入“红色”，那么对应的结构化的描述文本数据可以是：prompt＝“the house in the forest”，对应“森林中的房子”；图像样式描述信息中的正向样式描述对应的描述文本数据可以是：“{{{Art}}}，{birch}”，对应“艺术风格+3”(权重为3)、“桦树+1”(权重为1)，该部分描述文本数据可以与图像内容描述信息部分对应的描述文本数据合并显示，也可以分开显示。例如可以显示为：prompt＝“thehouse in the forest，{{{Art}}}，{birch}”，或者可以显示为prompt 1＝“the house inthe forest”，prompt 2＝“{{{Art}}}，{birch}”；图像样式描述信息中的负向样式描述对应的描述文本数据可以是：Negative prompt＝“red”，对应“红色”。

在一种可能的实现方式中，依据图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据，还可以先依据对应的信息权重对图像样式描述信息对应的信息权重进行排序，再通过对图像内容描述信息以及排序后的图像样式描述信息添加的信息标识符和信息间隔符，生成编程语言格式的描述文本数据。

其中，信息标识符可以用来表征图像样式描述信息对应的信息权重；信息间隔符可以将不同的图像样式描述信息、图像内容描述信息与图像样式描述信息等间隔开，以便计算机能够识别不同含义的图像样式描述信息、图像内容描述信息等。通过对图像内容描述信息以及排序后的图像样式描述信息添加的信息标识符和信息间隔符，可以将用户在前端页面输入的内容，以结构化的形式，生成编程语言格式的描述文本数据。

例如，在前述实施例的结构化的描述文本数据中，信息标识符可以包括“{}”、“()”这类符号。其中，“{{{}}}”可以对应“艺术风格”的权重值为3，“{}”可以对应“桦树”的权重值为1，即选择增加几个权重便出现几个“{}”。相应的，若在样式描述信息后添加信息权重为“-2”，那么该样式描述信息对应的描述文本数据可以是“(())”，即选择减少几个权重便会出现几个“()”。相应的，信息间隔符可以包括“＝”、“，”等这类符号。其中，“＝”后面可以是对图像内容的描述信息或图像样式描述信息及权重等，比如prompt＝“the house inthe forest，{{{Art}}}，{birch}”；“，”可以是区分不同图像样式描述信息的间隔符等。进而，可以将上述结构化的描述文本数据输入图像生成模型，由图像生成模型确定与描述文本数据匹配的图像特性信息，并依据图像特性信息生成目标图像。

在步骤S303中，将描述文本数据输入图像生成模型，以由图像生成模型确定与描述文本数据匹配的图像特性信息，并依据图像特性信息生成目标图像。

相应的，图像特性信息可以是与描述文本数据相匹配的用以表征图像内容的相关信息，这些相关信息可以包括正向信息，也可以包括负向信息，其中正向信息可以是用户希望在目标图像中出现的图像内容或风格等，负向信息可以是用户不希望在目标图像中生成的图像内容或风格等，相应的，这些正向信息和负向信息可以对应于用户在前端界面输入的图像内容描述信息和图像样式描述信息，部分或全部正向信息或负向信息还可以带有对应的权重信息，在图像生成的过程中可以根据这些图像特性信息中的优先级的排序生成对应的图像内容。图像特性信息的表达方式可以是在像素空间中的像素特征，可以是描述文本数据的语义特征，也可以是根据描述文本数据的语义特征与其对应的图像的像素特征相匹配的数字特征，例如特征向量。

本申请实施例中涉及到的图像生成模型，可以是以人工智能的文图生成模型为基础模型的图像生成模型，例如可以使用GANs网络模型(生成式对抗网络模型)、自回归网络模型(Autoregressive Model)、扩散模型(Diffusion Model)等人工智能绘画模型为基础模型，通过对基础模型进行变形、优化或改进，作为本申请实施例中使用的图像生成模型。

具体而言，可以采用潜在扩散模型(stable-diffusion)，通过调用CLIP模型(Contrastive Language-Image Pre-training，基于对比文本-图像对的预训练方法或者模型，是一种基于对比学习的多模态模型)对文本描述进行解析，进而通过该潜在扩散模型根据解析后的文本描述生成图像。潜在扩散模型可以看作是一种扩散模型的变体，可以将其视为由一系列去噪自编码器，其主要由3个部分组成，包括：CLIP模型、U-Net模型(new-Net，一种包括编码器和解码器的U型结构的神经网络模型)、变分自编码器(VAE，Variational Autoencoders)。这三个部分可以将文本生成图像的过程在信息空间(低维潜在空间)中进行，通过在潜在空间对文本描述信息进行处理(扩散)，将输入的文本嵌入(可以是具有语义的向量)和初始图像的潜在图像表示(可以是由噪声组成的初始多维数组)转化成去噪后的潜在图像表示(可以是一个经过处理的信息阵列)，相比于采用其他模型在像素空间对像素进行处理的过程，这种方式可以节省计算资源和存储空间，让文图生成能够在消费级的GPU较短时间内生成图像，降低了文图生成的门槛，提高了图像生成的速度，并且可以获得图像内容更加和谐的目标图像。在本方案中，对应于前端界面不同的交互组件，可以分别调用多个CLIP模型的编码器对描述文本数据对应的文本特征进行提取，并生成与该文本特征匹配的图像特性信息作为与该描述文本数据相关的图像特性信息。

其中，CLIP模型可以通过其编码器对描述文本数据对应的文本特征进行提取，并生成与该文本特征匹配的图像特性信息作为与该描述文本数据相关的图像特性信息。生成的方式可以是将上述文本特征转化为具有语义的向量，并作为文本嵌入输入至语义分割模型进行进一步的处理，进而可以依据上述图像特性信息生成目标图像。文本嵌入的具有语义的向量可以是77个含有768个维度的token(77×768的词向量或空间位置向量)嵌入向量。经过上述方式，CLIP模型将通过其编码器对描述文本数据对应的文本特征进行提取后，可以将前述结构化的描述文本数据(例如prompt＝“the house in the forest，{{{Art}}}，{birch}”)转换为语义分割模型U-Net可以理解的嵌入空间，也即，可以将CLIP模型中的编码器视为一个基于转换器的编码器，它将标记序列映射到潜在文本嵌入序列。

U-Net模型主要编码器和解码器部分组成，其中编码器和解码器均由ResNet(残差神经网络)块组成，由于整个U-Net呈现“U”型，故称之为U-Net。在该模型中，编码器可以将图像表示压缩为较低分辨率的图像，解码器可以将较低分辨率解码回较高分辨率的图像。为了防止U-Net在下采样时丢失重要信息，通常在编码器的下采样ResNet和解码器的上采样ResNet之间添加快捷连接。此外，U-Net能够通过交叉注意层调节其在文本嵌入上的输出，交叉注意层可以被添加到U-Net的编码器和解码器部分，通常在ResNet块之间。

在本申请实施例中，U-Net模型主要依据CLIP模型输入的文本嵌入的向量，对由随机种子生成的潜在图像表示(噪声图像)进行去噪处理，去噪的同时可以结合调度程序算法对去噪算法进行优化，并通过迭代的方式逐步生成目标图像，这一过程也可以称之为“扩散过程”。首先可以使用random函数(生成随机数的函数)生成一个隐变量大小的纯噪声(初始的随机潜在图像表示)，然后由U-Net模型结合CLIP模型输入的文本嵌入的文本语义向量不断的去除纯噪声隐变量中的噪声，同时不断的向隐变量中注入嵌入的文本语义向量信息，再重复上述过程(迭代)直至完全去除噪声(可以迭代50～100次)，最后得到一个有语义的隐变量(最后一次去噪后的潜在图像表示)，该隐变量相当于输入文本后使用本申请实施例中的图像生成模型从以前训练的所有图像中获取的所有视觉信息。最终，经过变分自编码器(VAE)的解码器将上述有语义的隐变量(最后一次去噪后的潜在图像表示)解码成图像后，可以发现该图像与对本申请实施例中的图像生成模型进行训练时使用的训练集中的图像分布接近，也即生成的图像和训练集可能保有相同的像素规律。比如训练时使用的是一个艺术家的图像集去训练，该图像就可能遵循美学的颜色分布；若使用的是真实世界的图像集训练的，那么该图像可能会遵循真实世界的规律。

相应的，前述调度程序算法可以采用Schedule算法(资源调度机制源码分析算法)。采用U-Net模型+Schedule算法的形式，可以看作是稳定扩散的秘诀，它可以不直接生成图片，而是结合嵌入的语义向量，从纯噪声开始逐步去除噪声，生成的较低维度的图片信息。它的输入可以是由文本嵌入的语义向量(77，768)+随机种子生成的随机潜在图像表示(噪声隐变量)(4，64，64)组成的纯噪声隐变量；输出可以是隐空间信息(information oflatent space)，即初始图像的潜在图像表示或经过去噪处理后的潜在图像表示(去噪的隐变量)(4，64，64)。其中，Schedule算法可以控制生成的进度或计算方式，也可以在去噪的不同阶段中动态调整去噪强度等，U-Net模型可以具体去执行生成的过程。另外也可以设置生成的迭代次数，一般而言，潜在扩散模型中整个U-Net模型的生成迭代过程可以重复50～100次，随机潜在图像表示(噪声隐变量)的质量也可以在这个迭代的过程中不断的变得更好，迭代次数越多图像质量越高。

U-Net模型中可以包括若干transformer模型(变形模型，以自注意力为主要机制的特定模型)，由于transformer模型的输入是一个序列的向量组成的一个矩阵，通过计算矩阵内部各个向量之间的关系，将其中的无效信息去除、有效信息的加强，并更新矩阵中的向量。相比于传统的语义分割模型，这种包括transformer模型的语义分割模型参数更大、存储信息更多、记忆能力更强。

变分自编码器(VAE)主要也由两个主要部分组成：编码器和解码器。其中，编码器可以将图像转换为低维潜在空间中的潜在图像表示，例如将随机种子中的图像转换为随机潜在图像表示，该表示将可以作为U-Net模型的输入；变分自编码器的解码器可以将潜在图像表示转换回图像。变分自编码器的解码器的输入可以是U-Net模型输出的初始图像的潜在图像表示或经过去噪处理后的潜在图像表示(去噪的隐变量)(4，64，64)，变分自编码器的解码器的输出可以是目标图像(3，512，512)(红/绿/蓝，宽，高)。

在一种可能的实现方式中，确定与描述文本数据相关的图像特性信息，可以通过使用编码器提取描述文本数据对应的文本特征，并生成与文本特征匹配的图像特性信息作为与描述文本数据相关的图像特性信息。

本申请实施例中涉及到的编码器，可以是CLIP模型中的编码器，由于CLIP模型结构中包括两个部分，文本编码器(Text Encoder)和图像编码器(Image Encoder)，其中文本编码器用来提取文本的特征，图像编码器用来提取图像的特征，CLIP模型是基于对比文本-图像对的预训练方法进行训练学习的多模态模型，可以将文本特征和图像特征配对。CLIP模型可以通过对提取的文本特征和图像特征进行对比学习获得文本-图像的对应关系，对于一个包含N个文本-图像对的训练对，将N个文本特征和N个图像特征两两组合，CLIP模型会预测出N2个可能的文本-图像对的相似度，这里的相似度是通过计算文本特征和图像特征的余弦相似性(cosine similarity)获得的特征矩阵，在这个特征矩阵中，例如共有N个正样本(即真正属于一对的文本和图像)，这些正样本可能是位于矩阵中的对角线元素，相应的，剩余的N2-N个文本-图像对则为负样本，那么CLIP的训练目标就是最大化N个正样本的相似度，同时最小化N2-N个负样本的相似度。调用CLIP模型的好处是，可以利用CLIP的多模态特性为具体的任务构建动态的分类器，其中文本编码器提取的文本特征可以看成分类器的权重，而图像编码器提取的图像特征可以是分类器的输入。

因此，本申请实施例中使用的编码器可以是CLIP模型中的文本编码器，也可以是CLIP模型中的文本编码器和图像编码器(可以针对输入内容是图标等的情况)。对应于前端界面不同的交互组件，可以分别调用多个CLIP模型的编码器对描述文本数据对应的文本特征进行提取，并生成与该文本特征匹配的图像特性信息作为与该描述文本数据相关的图像特性信息。例如，可以调用3个CLIP模型的编码器，其中编码器1可以用于接收来自于“内容描述(prompt描述)”中的结构化描述文本数据和权重，编码器2可以用于接收来自于“图像正向样式描述(标签样式选择)”中的结构化描述文本数据和权重，编码器3可以用于接收来自于“图像负向样式描述(排除样式选择)”中的结构化描述文本数据和权重，CLIP模型中的编码器1、编码器2、编码器3可以分别提取这几类结构化描述文本数据中的文本特征，并将提取的文本特征整合后生成与该文本特征匹配的图像特性信息，生成的方式可以是将上述文本特征转化为具有语义的向量，并作为文本嵌入输入至语义分割模型进行进一步的处理，进而可以依据上述图像特性信息生成目标图像。其中，文本嵌入的具有语义的向量，可以是77个含有768个维度的token(77×768的词向量或空间位置向量)嵌入向量。比如在空间中，一个特征映射(feature map)的形状是[C,H,W][C，H，W][C，H，W]，那么某一个空间位置的向量[C,1,1][C，1，1][C，1，1]就是token。

在一种可能的实现方式中，依据图像特性信息生成目标图像，可以先获取依据随机种子生成初始图像的潜在图像表示，再使用图像特性信息对初始图像的潜在图像表示进行去噪处理，最后使用自编码的解码器依据去噪处理后的潜在图像表示生成目标图像。

在本申请实施例中，将文本特征转化为具有语义的向量作为文本嵌入，输入至语义分割模型的同时，可以获取依据随机种子生成的初始图像的潜在图像表示，并使用前述图像特性信息对该初始图像的潜在图像表示进行去噪处理，再使用自编码的解码器依据去噪处理后的潜在图像表示生成目标图像。这里的随机种子可以是采用高斯噪声加噪处理后的初始图像，使用随机种子生成大小为64×64的初始图像的潜在图像表示(初始随机潜在图像表示)后，可以将该64×64的初始图像的潜在图像表示和前述77×768的文本嵌入一同作为语义分割模型的输入，这里的语义分割模型可以采用U-Net模型(new-Net，一种包括编码器和解码器的U型结构的神经网络模型)。其中，U-Net模型中可以包括若干transformer模型(变形模型，以自注意力为主要机制的特定模型)，由于transformer模型的输入是一个序列的向量组成的一个矩阵，通过计算矩阵内部各个向量之间的关系，将其中的无效信息去除、有效信息的加强，并更新矩阵中的向量。相比于传统的语义分割模型，这种包括transformer模型的语义分割模型参数更大、存储信息更多、记忆能力更强。

Transformer模型本质上也是一个编码组件-解码组件的架构，它可以将一种语言的一个句子作为输入，并将其翻译成另一种语言的一个句子作为输出。其中，编码组件可以由多层编码器(Encoder)组成，解码组件也可以由相同层数的解码器(Decoder)组成，每个编码器由两个子层组成：Self-Attention层(自注意力层)和Position-wise Feed ForwardNetwork(FFN，前馈网络)。每个编码器的结构都可以是相同的，但是它们可以使用不同的权重参数。编码器的输入会先流入Self-Attention层，Self-Attention层可以让编码器在对特定词进行编码时使用输入句子中的其他词的信息(可以理解为：当我们翻译一个词时，不仅关注当前的词，而且还会关注其他词的信息)。然后，Self-Attention层的输出会流入前馈网络。相对的，在解码器中也可以有编码器中的这两层，但是它们之间还有一个注意力层(Encoder-Decoder Attention)，用来帮助解码器关注输入句子的相关部分。

首先，可以使用词嵌入算法(Embedding)在CLIP模型的编码器中将描述文本数据中的每个词转换为一个词向量，词嵌入向量的维度可以是512。然后，在U-Net模型中的若干transformer模型内的所有编码器都会接收到一个大小为512的向量列表，其中底部编码器接收的是词嵌入向量，其他编码器接收的是上一个编码器的输出，可以对此列表的大小设置相应的超参数，该超参数可以是最长句子的长度。

在Transformer模型中的编码器接收到输入的向量后，该编码器首先可以将这些向量传递到Self-Attention层，然后传递到前馈网络，最后将输出传递到下一个编码器。当模型处理每个词(输入序列中的每个位置)时，Self-Attention机制使得模型不仅能够关注当前位置的词，而且能够关注句子中其他位置的词，从而可以更好地编码这个词。

其中，Self-Attention层具体的处理步骤可以是：第1步：对编码器的每个输入向量可以创建三个向量：Query向量、Key向量和Value向量(简称Q、K、V向量，均为计算机程序语言中可以表示词的向量)，它们是通过词向量分别和3个矩阵相乘得到的，这3个矩阵通过预先训练获得。这些向量的维数一般小于词向量的维数，维数可以是64，而嵌入算法和编码器输入/输出的向量的维数可以为512。第2步：计算注意力分数。假设正在计算的句子中的第一个词是“Thinking”(思考)的自注意力，计算注意力分数是将根据“Thinking”这个词对句子中的每个词都计算一个分数。这些分数决定了在编码“Thinking”这个词时，需要对句子中其他位置的每个词放置多少的注意力。第3步：将每个分数除以Key向量的维度，目的是在反向传播时，求梯度更加稳定。第4步：将前述分数进行Softmax(软最大值)操作，得到Softmax分数，Softmax可以将前述注意力分数进行归一化处理，使得它们都为正数并且和为1。第5步：将每个Softmax分数分别与每个Value向量相乘，得到Value向量。对于分数高的位置，相乘后的值就越大，可以将更多的注意力放在它们身上；对于分数低的位置，相乘后的值就越小，这些位置的词可能与目标词“Thinking”的相关性不大，可以忽略这些位置的词。第6步：将加权的Value向量(即上一步求得的向量)求和，得到自注意力层在这个位置的输出。

在一些实施例中，使用图像特性信息对初始图像的潜在图像表示进行去噪处理，可以通过先使用图像特性信息对初始图像的潜在图像表示进行去噪处理，得到去噪后的潜在图像表示，再根据去噪后的潜在图像表示以及描述文本数据，重新确定与描述文本数据相关的图像特性信息，最后根据重新确定的图像特性信息对去噪后的潜在图像表示再次进行去噪处理的方式实现，其中，重新确定图像特性信息至再次进行去噪处理的过程迭代可以执行至少一次。

具体的，在使用语义分割模型时根据语义信息生成图像时，可以采用多次迭代的方式，不断结合语义信息与潜在图像表示一步步生成所需的目标图像。也就是说，语义分割模型可以在以文本嵌入为条件的同时，迭代的对初始图像的潜在图像表示进行去噪。

在本申请实施例中，使用的语义分割模型可以是U-Net模型。当U-Net模型依据CLIP模型输入的文本嵌入的向量对随机潜在图像表示进行去噪处理时，可以使用注意力机制在U-Net模型内层层耦合。迭代的过程中可以使用多次注意力机制，每次使用注意力机制，就可以发生一次图片信息和语义信息的耦合，每次耦合都相当于重新确定了与描述文本数据相关的图像特性信息。也即，可以根据所述去噪后的潜在图像表示以及描述文本数据，重新确定与描述文本数据相关的图像特性信息，并根据重新确定的图像特性信息对去噪后的潜在图像表示再次进行去噪处理，其中，重新确定图像特性信息至再次进行去噪处理的过程迭代执行至少一次。

例如，初始图像的潜在图像表示可以是一个由噪声组成的初始多维数组(结构化的数字列表，也叫张量tensor)，在U-Net模型第一次对初始图像的潜在图像表示去噪后，可以得到第一次去噪后的潜在图像表示。然后，可以根据去噪后的潜在图像表示以及描述文本数据，重新确定与描述文本数据相关的图像特性信息，并根据重新确定的图像特性信息对去噪后的潜在图像表示再次进行去噪处理。这一过程中可以重复N步调度程序步骤，还可以根据重新确定的图像特性信息对调度程序算法进行重构，调整去噪强度或者去噪速度等，使其更好的生成目标图像所需的潜在图像表示。经过语义分割模型进行去噪处理后的潜在图像表示的形式可以是噪声残差，调度程序算法可以根据前一步输出的图像特性信息和噪声残差，计算预测的再次去噪后的潜在图像表示。上述迭代过程，可以是U-Net模型结合文本嵌入的语义信息，从模型参数中寻找与该语义信息对应的图像相关联的图像特性信息，然后将这些图像的共性加入生成的潜在图像表示中，每次迭代都可以获得更多的关联的图像特性信息，因此，迭代的次数越多，生成的图像质量也会越高。同时还设置迭代次数，本申请对此并不做任何限制。最后，可以使用自编码的解码器依据去噪处理后的潜在图像表示生成目标图像。

在一种可能的实现方式中，上述图像生成的方案中，还可以包括：在结构化的描述文本数据的关联位置提供目标图像。其中，关联位置可以是该结构化的描述文本数据对应的客户端的显示界面，或者与用户进行交互的程序功能插件等交互组件的显示界面等，本申请对此并不做任何限制。

与本申请实施例提供的方法的应用场景以及方法相对应地，本申请实施例还提供一种基于交互的图像生成装置。如图4所示为本申请一实施例的图像生成装置400的结构框，该装置400可以包括：

描述信息获取模块401，用于获取基于交互组件提交的图像描述信息；所述交互组件包括内容描述输入组件和多个样式描述输入组件，所述内容描述输入组件配置为接收图像内容描述信息，所述样式描述输入组件配置为接收图像样式描述信息以及对应的信息权重；

文本数据生成模块402，用于依据所述图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据；

目标图像生成模块403，用于将所述描述文本数据输入图像生成模型，以由所述图像生成模型确定与所述描述文本数据匹配的图像特性信息，并依据所述图像特性信息生成目标图像。

在一种可能的实现方式中，所述样式描述输入组件配置为接收图像正向样式描述信息和图像负向样式描述信息，所述目标图像生成模块403可以包括：

图像特性信息对应子模块，用于确定与所述描述文本数据中与图像内容描述信息以及图像正向样式描述信息正相关，且与所述图像负向样式描述信息负相关的图像特性信息。

在一种可能的实现方式中，所述文本数据生成模块402可以包括：

信息权重排序子模块，用于依据对应的信息权重对所述图像样式描述信息对应的信息权重进行排序；

文本数据生成子模块，用于通过对所述图像内容描述信息以及排序后的图像样式描述信息添加的信息标识符和信息间隔符，生成编程语言格式的描述文本数据。

在一种可能的实现方式中，所述目标图像生成模块403可以包括：

图像特性信息确定子模块，用于使用编码器提取所述描述文本数据对应的文本特征，并生成与所述文本特征匹配的图像特性信息作为与所述描述文本数据相关的图像特性信息。

潜在图像表示获取子模块，用于获取依据随机种子生成初始图像的潜在图像表示；

潜在图像表示去噪子模块，用于使用所述图像特性信息对所述初始图像的潜在图像表示进行去噪处理；

目标图像生成子模块，用于使用自编码的解码器依据去噪处理后的潜在图像表示生成目标图像。

在一些实施例中，所述潜在图像表示去噪子模块可以包括：

潜在图像表示去噪单元，用于使用所述图像特性信息对所述初始图像的潜在图像表示进行去噪处理，得到去噪后的潜在图像表示；

图像特性信息确定单元，用于根据所述去噪后的潜在图像表示以及所述描述文本数据，重新确定与所述描述文本数据相关的图像特性信息；

潜在图像表示迭代去噪单元，用于根据重新确定的图像特性信息对所述去噪后的潜在图像表示再次进行去噪处理，其中，重新确定图像特性信息至再次进行去噪处理的过程迭代执行至少一次。

在一种可能的实现方式中，所述装置还可以包括：

目标图像提供模块，用于在所述结构化的描述文本数据的关联位置提供所述目标图像。

在一种可能的实现方式中，至少部分图像描述信息还表示为语音和/或图标，所述装置还可以包括：

语音信息识别模块，用于对语音形式的图像描述信息进行语音识别，得到对应的文字形式的图像描述信息；

和/或，

图标信息查找模块，用于查找图标形式的图像描述信息对应的文字含义，得到对应的文字形式的图像描述信息。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，并具备相应的有益效果，在此不再赘述。

图5为用来实现本申请实施例的电子设备的框图。如图5所示，该电子设备包括：存储器501和处理器502，存储器501内存储有可在处理器502上运行的计算机程序。处理器502执行该计算机程序时实现上述实施例中的方法。存储器501和处理器502的数量可以为一个或多个。

该电子设备还包括：

通信接口503，用于与外界设备进行通信，进行数据交互传输。

如果存储器501、处理器502和通信接口503独立实现，则存储器501、处理器502和通信接口503可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器501、处理器502及通信接口503集成在一块芯片上，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(Advanced RISC Machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机访问存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机访问存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM均可用。例如，静态随机访问存储器(Static RAM，SRAM)、动态随机访问存储器(Dynamic Random Access Memory，DRAM)、同步动态随机访问存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机访问存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机访问存储器(Enhanced SDRAM，ESDRAM)、同步链接动态随机访问存储器(Sync link DRAM，SLDRAM)和直接内存总线随机访问存储器(DirectRambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生依照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中描述的或在此以其他方式描述的任何过程或方法可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中描述的或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的示例性实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请记载的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于交互的图像生成方法，包括：

2.根据权利要求1所述的方法，其中，所述样式描述输入组件配置为接收图像正向样式描述信息和图像负向样式描述信息；

所述确定与所述描述文本数据匹配的图像特性信息包括：

确定与所述描述文本数据中与图像内容描述信息以及图像正向样式描述信息正相关，且与所述图像负向样式描述信息负相关的图像特性信息。

3.根据权利要求1所述的方法，其中，所述依据所述图像内容描述信息、图像样式描述信息以及信息权重生成结构化的描述文本数据包括：

依据对应的信息权重对所述图像样式描述信息对应的信息权重进行排序；

通过对所述图像内容描述信息以及排序后的图像样式描述信息添加的信息标识符和信息间隔符，生成编程语言格式的描述文本数据。

4.根据权利要求1所述的方法，其中，所述确定与所述描述文本数据相关的图像特性信息包括：

使用编码器提取所述描述文本数据对应的文本特征，并生成与所述文本特征匹配的图像特性信息作为与所述描述文本数据相关的图像特性信息。

5.根据权利要求1所述的方法，其中，所述依据所述图像特性信息生成目标图像包括：

获取依据随机种子生成初始图像的潜在图像表示；

使用所述图像特性信息对所述初始图像的潜在图像表示进行去噪处理；

使用自编码的解码器依据去噪处理后的潜在图像表示生成目标图像。

6.根据权利要求5所述的方法，其中，所述使用所述图像特性信息对所述初始图像的潜在图像表示进行去噪处理包括：

使用所述图像特性信息对所述初始图像的潜在图像表示进行去噪处理，得到去噪后的潜在图像表示；

根据所述去噪后的潜在图像表示以及所述描述文本数据，重新确定与所述描述文本数据相关的图像特性信息；

根据重新确定的图像特性信息对所述去噪后的潜在图像表示再次进行去噪处理，其中，重新确定图像特性信息至再次进行去噪处理的过程迭代执行至少一次。

7.根据权利要求1所述的方法，其中，所述方法还包括：

在所述结构化的描述文本数据的关联位置提供所述目标图像。

8.根据权利要求1所述的方法，其中，至少部分图像描述信息还表示为语音和/或图标，所述方法还包括：

对语音形式的图像描述信息进行语音识别，得到对应的文字形式的图像描述信息；

和/或，查找图标形式的图像描述信息对应的文字含义，得到对应的文字形式的图像描述信息。

9.一种基于交互的图像生成装置，包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。