CN113989420A

CN113989420A - 图像生成系统及方法

Info

Publication number: CN113989420A
Application number: CN202111165351.4A
Authority: CN
Inventors: 张竹; 马坚鑫; 周畅; 门睿; 李智康; 杨红霞; 周靖人
Original assignee: Alibaba Cloud Computing Beijing Co Ltd
Current assignee: Alibaba Cloud Computing Beijing Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-28

Abstract

本申请实施例提供一种图像生成系统及方法。在本申请实施例中，通过信息获取组件获取文本控制信息、图像控制信息和原始图像信息，将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，掩码序列用于表征需要进行图像生成操作的图像区域，而后基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像；有效地实现了可以基于文本控制信息、图像控制信息等多模态数据作为控制信号来自动生成图像，并且还保证了图像生成的质量和效率，降低了图像生成成本，适用于大规模批量化设计。

Description

图像生成系统及方法

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像生成系统及方法。

背景技术

在产品制造场景中，所制作的产品往往对应有设计图样，而设计图像一般是通过设计师进行人为的设计操作所获得的。例如，在服装设计领域中，在进行服装设计的过程中，设计师往往需要借鉴已有的制造款式来设计新的制造款式。由于完全依靠人力，因此，制造场景中有关产品的设计效率并不高，设计成本也较高，无法做到大规模批量化设计。

发明内容

本申请的多个方面提供一种图像生成系统及方法，能够基于多模态的数据自动化地生成图像，提高了图像生成的质量和效率，降低了图像生成成本，这样有利于实现大规模批量化的生产和设计。

第一方面，本申请实施例提供了一种图像生成系统，包括：

信息获取组件，用于获取文本控制信息、图像控制信息和原始图像信息；

图像生成组件，用于将所述图像控制信息转换为第一特征序列，将所述原始图像信息转换为第二特征序列，所述第二特征序列中的至少部分为掩码序列，其中，所述掩码序列用于表征需要进行图像生成操作的图像区域；

所述图像生成组件，还用于基于所述文本控制信息、所述第一特征序列和所述第二特征序列，生成至少一个第一图像，所述第一图像包括由所述文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

第二方面，本申请实施例提供了一种图像生成方法，包括：

获取文本控制信息、图像控制信息和原始图像信息；

将所述图像控制信息转换为第一特征序列，将所述原始图像信息转换为第二特征序列，所述第二特征序列中的至少部分为掩码序列，其中，所述掩码序列用于表征需要进行图像生成操作的图像区域；

基于所述文本控制信息、所述第一特征序列和所述第二特征序列，生成至少一个第一图像，所述第一图像包括由所述文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

第三方面，本申请实施例提供了一种图像生成装置，包括：

第一获取模块，用于获取文本控制信息、图像控制信息和原始图像信息；

第一确定模块，用于将所述图像控制信息转换为第一特征序列，将所述原始图像信息转换为第二特征序列，所述第二特征序列中的至少部分为掩码序列，其中，所述掩码序列用于表征需要进行图像生成操作的图像区域；

第一处理模块，用于基于所述文本控制信息、所述第一特征序列和所述第二特征序列，生成至少一个第一图像，所述第一图像包括由所述文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

第四方面，本发明实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第二方面中的图像生成方法。

第五方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第二方面中的图像生成方法。

第六方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述处理器执行上述第二方面所示的地址分配方法中的步骤。

在本申请实施例中，通过信息获取组件获取文本控制信息、图像控制信息和原始图像信息，而后利用图像生成组件将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域，并基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像，有效地实现了可以基于文本控制信息、图像控制信息等多模态数据来自动地生成图像，从而保证了图像生成的质量和效率，降低了图像生成成本，且有利于实现大规模批量化的生产和设计，进一步提高了该图像生成系统的实用性。

第七方面，本申请实施例提供了一种图像生成方法，包括：

响应于调用图像生成请求，确定图像生成服务对应的处理资源。

利用所述处理资源执行如下步骤：获取文本控制信息、图像控制信息和原始图像信息；将所述图像控制信息转换为第一特征序列，将所述原始图像信息转换为第二特征序列，所述第二特征序列中的至少部分为掩码序列，其中，所述掩码序列用于表征需要进行图像生成操作的图像区域；基于所述文本控制信息、所述第一特征序列和所述第二特征序列，生成至少一个第一图像，所述第一图像包括由所述文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

第八方面，本申请实施例提供了一种图像生成装置，包括：

第二确定模块，用于响应于调用图像生成请求，确定图像生成服务对应的处理资源。

第二处理模块，用于利用所述处理资源执行如下步骤：获取文本控制信息、图像控制信息和原始图像信息；将所述图像控制信息转换为第一特征序列，将所述原始图像信息转换为第二特征序列，所述第二特征序列中的至少部分为掩码序列，其中，所述掩码序列用于表征需要进行图像生成操作的图像区域；基于所述文本控制信息、所述第一特征序列和所述第二特征序列，生成至少一个第一图像，所述第一图像包括由所述文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

第九方面，本发明实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第七方面中的图像生成方法。

第十方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第七方面中的图像生成方法。

第十一方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述第七方面所示的图像生成方法中的步骤。

第十二方面，本发明实施例提供了一种图像生成方法，包括：

获取文本控制信息、服装图像控制信息和原始图像信息；

基于所述服装图像控制信息，确定至少一个服装关注区域；

基于所述文本控制信息、所述至少一个服装关注区域和所述原始图像信息，生成至少一个目标服装图像，所述目标服装图像中包括由所述文本控制信息、至少一个服装关注区域和原始图像信息进行融合处理后的图像。

第十三方面，本发明实施例提供了一种图像生成装置，包括：

第三获取模块，用于获取文本控制信息、服装图像控制信息和原始图像信息；

第三确定模块，用于基于所述服装图像控制信息，确定至少一个服装关注区域；

第三处理模块，用于基于所述文本控制信息、所述至少一个服装关注区域和所述原始图像信息，生成至少一个目标服装图像，所述目标服装图像中包括由所述文本控制信息、至少一个服装关注区域和原始图像信息进行融合处理后的图像。

第十四方面，本发明实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第十二方面中的图像生成方法。

第十五方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第十二方面中的图像生成方法。

第十六方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述第十二方面所示的图像生成方法中的步骤。

本实施例中，通过获取文本控制信息、服装图像控制信息和原始图像信息，基于服装图像控制信息确定至少一个服装关注区域，并基于文本控制信息、至少一个服装关注区域和原始图像信息生成至少一个目标服装图像，从而有效地实现了能够基于文本控制信息、服装图像控制信息等多模态数据自动化地生成同款服饰图像，提高了同款服饰图像的设计质量和效率，降低了图像生成成本，并且有利于实现服装的大规模批量化的生产和设计，进一步提高了该图像生成方法的实用性，有利于市场的推广与应用。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例的一种图像生成系统的场景示意图；

图2为本申请一示例性实施例的一种图像生成系统的原理示意图；

图3为本申请一示例性实施例的一种图像生成方法的流程示意图；

图4为本申请另一示例性实施例的一种图像生成方法的流程示意图；

图5为本申请又一示例性实施例的一种图像生成方法的流程示意图；

图6为本申请再一示例性实施例的一种图像生成方法的流程示意图；

图7为本申请另一示例性实施例的一种图像生成方法的流程示意图；

图8为本申请又一示例性实施例的一种图像生成方法的流程示意图；

图9为本申请另一示例性实施例的一种图像生成方法的流程示意图；

图10为本申请一示例性实施例的一种图像生成装置的结构示意图；

图11为与图10所示实施例提供的图像生成装置对应的电子设备的结构示意图；

图12为本申请另一示例性实施例的一种图像生成装置的结构示意图；

图13为与图12所示实施例提供的图像生成装置对应的电子设备的结构示意图；

图14为本申请又一示例性实施例的一种图像生成装置的结构示意图；

图15为与图14所示实施例提供的图像生成装置对应的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面对相关技术进行说明：

在产品制造场景中，所制作的产品往往对应有设计图样，而设计图样一般是通过设计师进行人为的设计操作所获得的。例如，在服装设计领域中，在进行服装设计的过程中，设计师往往需要借鉴已有的制造款式来设计新的制造款式。由于完全依靠人力，因此，制造场景中有关产品的设计效率并不高，设计成本也较高，并且还无法做到大规模批量化设计。

由于服装设计领域对自动化高效率设计有着强烈需求，因此，相关技术中提供了一种基于深度学习算法实现的服装生成方法，该方法可以预先基于深度学习算法和训练数据生成一图像生成模型，该图像生成模型可以基于文本或者图像素材等单一控制信号来生成图像。

举例来说，在用户想要生成一牛仔裤图像时，用户可以在图像生成模型中输入“牛仔裤”文本控制信号，图像生成模型可以基于文本控制信号生成多个相对应的图像，即可以生成各种各样的多个牛仔裤图像，例如：各种颜色的牛仔裤图像、各种材质的牛仔裤图像、各种特征的牛仔裤图像等等。

然而，上述方法无法将多模态数据作为控制信号，从而使得利用上述图像生成方式所生成的牛仔裤图像的数量较多，这是往往还需要人为地在多个牛仔裤图像中进行图像筛选操作，以选择符合条件的目标图像。另外，在服装设计场景中，每个服装商家都希望能有自动化的服装设计能力，以能够进行大规模的挑选与试错操作，这样有利于加快新品的设计速度；而上述实现方式中所生成的图像品类有限，无法做同款扩展，从而无法满足对所生成图像的自由控制，所生成的图像往往和设计师想要的目标图像之间存在较大差距，因此，亟需提升对所生成图像的控制能力。此外，由于用于生成图像的控制信号为单一信号，使得图像生成的控制能力不足，图像生成速度过慢、且分辨率不足，进而降低了图像生成方法的实用性。

另外，相关技术中提供了一种基于两阶段的图像生成方法，该方法能够以文本信息作为控制信号生成相对应的图像。但是，上述图像生成方法存在以下缺陷：(1)无法基于多模态的控制信号生成图像。(2)因为在二阶段使用自回归方式，导致生成速度慢，并且，所生成图像的一致性较差。(3)只能生成256*256分辨率的图片，无法生成高清图片；如果要生成高分辨率的图像，则生成图像的质量无法保证，例如：如果要生成分辨率为800*800的图像，图像需要处理的长度能够达到几千，这样极大地降低了图像生成的质量和效率。

为了解决上述技术问题，参考附图1所示，本实施例提供了一种图像生成系统及方法，其中，该图像生成系统可以实现为软件、或者软件和硬件的组合，并且，图像生成系统可以与客户端/请求端通信连接，以实现图像生成操作。

其中，客户端/请求端可以是任何具有一定数据传输能力的计算设备，此外，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器(Read-Only Memory，简称ROM)、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System，简称OS)、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地，一些外围设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的，在此不做赘述。可选地，客户端可以为PC(personal computer)终端、手持终端(例如：智能手机、平板电脑)等。

图像生成系统是指可以在网络虚拟环境中提供图像生成服务的设备，通常是指利用网络进行信息规划、图像生成操作的装置。在物理实现上，图像生成系统可以是任何能够提供计算服务，响应服务请求，并进行处理的设备，此时，图像生成系统可以实现为集群服务器、常规服务器、云服务器、云主机、虚拟中心等。图像生成系统的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

在上述本实施例中，客户端可以与图像生成系统进行网络连接，该网络连接可以是无线或有线网络连接。若客户端与图像生成装置是通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。

在本申请实施例中，客户端可以生成/获取图像生成请求，该图像生成请求中可以包括文本控制信息、图像控制信息和原始图像信息，文本控制信息和图像控制信息用于作为图像生成的控制信号，原始图像信息可以是指能够表征待生成图像的尺寸特征的图像信息。具体的，本实施例对于客户端生成/获取图像生成请求的具体实现方式不做限定，例如：客户端上设置有交互界面，通过交互界面获取用户输入的执行操作，通过执行操作来生成图像生成请求；或者，客户端上可以设置有特定接口，通过特定接口可以获取到图像生成请求。在获取到图像生成请求之后，可以将图像生成请求通过设定接口(包括：移动网关、云网关等等)至图像生成装置，以使得图像生成装置可以对所上传的图像生成请求进行分析处理操作。

具体的，参考附图2所示，图像生成系统可以包括：信息获取组件101和与信息获取组件101通信连接的图像生成组件102，在本实施例中，并不限定信息获取组件101和图像生成组件102的部署实现方式。可选地，这些组件实现为分布式部署，并且借助云计算系统实现整体系统功能。例如，信息获取组件101和图像生成组件102可以均部署在云端，例如部署在数据中心或中心云系统中。或者，图像生成组件102以部署在云端，例如数据中心或中心云系统中，并实现为云服务器，以便借助于云上资源的优势运行各种生成对象图像的神经网络模型；相对于云端部署，信息获取组件101可以部署在各种电商平台和用户端的端侧，便于收集用户行为数据和对象描述信息。无论部署在哪个位置，信息获取组件101可部署在台式电脑、笔记本电脑或智能手机等终端设备，也可以部署在常规服务器、云服务器或服务器阵列等服务端设备。

本申请实施例提供的图像生成系统可应用于各种制造行业，制造行业泛指机械工业时代利用某种资源(物料、能源、设备、工具、资金、技术、信息和人力等)，按照市场要求，通过制造过程，转化为可供人们使用和利用的大型工具、工业品与生活消费产品的行业，例如包括但不限于：食品、服装、烟草、家具、造纸、印刷、体育娱乐用品、医药或化工等各种制造行业。为便于描述和区分，在本申请实施例中，以图像生成系统为第一制造行业生成其所需的对象图像为例展开描述。其中，第一制造行业可以是任何依赖对象图像进行生产制造的行业，例如可以是但不限于：服装行业、印刷行业、生活用品行业、家居行业、电器行业或乘用车行业等等。尤其是，第一制造行业可以是支持用户直连制造(Customer-to-Manufacturer，C2M)的制造行业，采用本申请实施例提供的图像生成系统可以满足用户的个性化的定制需求，能够快速、高效、高质量的为用户生成符合其定制化需求的对象图像。

例如，在本申请实施例提供的图像生成系统应用于食品制造行业时，可以快速、高效地为食品制造行业生成食品样图，该食品样图包含食品的形状样式，例如小熊形状的饼干，或者小猪形状的糕点等。又例如，在本申请实施例提供的图像生成系统应用于服装制造行业时，可以快速、高效地为服装制造行业生成服装样式图，该服务样式图中包括服装的形状样式，例如可以是带抽绳和帽子的卫衣，或带泡泡袖的短款女衫等。

无论第一制造行业是哪种制造行业，第一制造行业所生产的对象通常是多种多样的，为了便于对对象进行合理管理和区分，对这些对象进行了品类划分，不同对象品类下的对象之间具有明显的差异性，这些差异性主要体现的对象的一些属性上。其中，第一制造行业所生产的对象可以是该制造行业中的成品或半成品，其中，当成品投入使用以后还可以称之为商品，例如可以是服装、车辆、家电等。在本申请实施例中，并不关注对对象进行品类划分，也不限定划分品类所依据的维度。在本实施例中，图像生成系统可以以第一制造行业中的对象品类为粒度生成各对象品类所需的对象图像，有利于减轻图像生成系统的处理负担，可保证生成具有较高精度的对象图像。

具体的，图像生成系统中的信息获取组件101和图像生成组件102可以分别用于执行如下步骤：

信息获取组件101，用于接收客户端上传的图像处理请求，而后可以确定与图像处理请求相对应的文本控制信息、图像控制信息和原始图像信息；或者，信息获取组件101可以直接获取文本控制信息、图像控制信息和原始图像信息。其中，文本控制信息可以是指任意长度的单词序列；原始图像信息用于限定所生成图像的尺寸特征，其具体可以为待生成图像，文本控制信息用于作为图像生成的文本控制信号，图像控制信息用于作为图像生成的视觉控制信号，在一些实例中，图像控制信息可以包括图像素材，而图像素材可以包括一个或多个素材维度。

图像生成组件102，用于将图像控制信息转换为第一特征序列，其中，第一特征序列的个数为一个或多个；并可以将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域；基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，所生成的第一图像中包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

由于图像控制信息是视觉控制信号，与文本控制信号属于不同模态，因此，在获取到图像控制信息和原始图像信息之后，可以分别对图像控制信息和原始图像信息进行分析处理，具体的，可以将图像控制信息转换为至少一个第一特征序列，并将原始图像信息转换为第二特征序列，其中，第二特征序列中的至少部分为掩码序列，掩码序列用于表征需要进行图像生成操作的图像区域，即第二特征序列中的至少部分需要进行图像生成操作。在生成文本控制信息、至少一个第一特征序列和第二特征序列之后，可以基于文本控制信息、至少一个第一特征序列和第二特征序列来生成至少一个第一图像，从而有效地实现了可以基于多模态控制数据来生成图像，保证了所生成图像的质量和效率，满足了不同用户的个性化需求。

具体实现时，参考附图2所示，图像生成系统可以实现一用于对图像进行分析处理的网络模型，该网络模型可以采用两阶段图像生成范式来实现图像生成操作。其中，在网络模型获取到用于生成图像的文本控制信息、图像控制信息和原始图像信息之后，可以对图像控制信息和原始图像信息进行编码处理，从而可以获得与图像控制信息相对应的至少一个第一特征序列和与原始图像信息相对应的第二特征序列，其中，至少一个第一特征序列中任意两个特性序列所对应的维度不同。

在一些实例中，网络模型包括：用于实现对图像进行编码、解码操作的第一阶段模型和用于对图像进行分析处理的第二阶段模型。在获取到图像控制信息之后，可以通过第一阶段模型对图像控制信息进行编码处理，从而可以获得与图像控制信息相对应的至少一个图像特征。而后，可以利用预设映射规则(codebook)对至少一个图像特征进行量化处理，其中，预设映射规则由一系列可学习的特征向量组成，量化处理过程是从预设映射规则中找到与图像特征最接近的参考特征，而后将参考特征所对应的编码信息作为与图像特征相对应的第一特征序列。需要注意的是，不同的第一特征序列所对应的图像控制信息的维度不同。例如：在图像控制信息包括纹理、图案、款式等素材信息时，那么，所生成的第一特征序列可以包括：与纹理相对应的第一特征序列、与图案相对应的第一特征序列以及与款式相对应的第一特征序列等等。

在一些实例中，为了能够支持多个视觉维度的图像生成操作，通过第一阶段模型对图像控制信息进行编码处理，获得与图像控制信息相对应的至少一个图像特征可以包括：通过第一阶段模型中的编码器对图像控制信息进行编码处理，获得与图像控制信息相对应的控制信息编码序列，而后可以利用预设的分割标识将控制信息编码序列划分为与图像控制信息相对应的至少一个图像特征。可以理解的，与图像控制信息相对应的图像特征的数量可以根据具体的应用场景或者应用需求进行配置，从而实现了可以基于任意数量的多模态控制数据来进行图像生成操作。

举例来说，在图像控制信息为用户输入的服装图像时，该服装图像中包括：服装颜色、服装款式、服装纹理、服装图案等等，在利用第一阶段模型对服装图像进行分析处理时，可以获取与服装图像相对应的控制信息编码序列，该控制信息编码序列中包括：与服装颜色相对应的颜色编码序列、与服装款式相对应的款式编码序列、与服装纹理相对应的纹理编码序列以及与服装图案相对应的图案编码序列。为了能够准确地获取到与图像控制信息相对应的至少一个图像特征，则可以在颜色编码序列与款式编码序列之间添加分割标识(例如：[SEP]),相类似的，在款式编码序列与纹理编码序列之间添加分割标识(例如：[SEP])，在纹理编码序列与图案编码序列之间添加分割标识(例如：[SEP])。而后可以基于与图像控制信息相对应的至少一个图像特征来获取与图像控制信息相对应的不同维度的视觉控制信号。

相类似的，在获取到原始图像信息之后，可以对原始图像信息进行编码处理，从而可以获得与原始图像信息相对应的第二特征序列，该第二特征序列中的至少部分为掩码序列，即第二特征序列中的部分或者全部编码序列被预设的掩码[MASK]代替。具体的，在所生成的图像为一个完整的图像时，则第二特征序列中的全部为掩码序列；在所生成的图像为一个图像的一部分时，则第二特征序列中的部分为掩码序列。

在获取到文本控制信息、第一特征序列和第二特征序列之后，可以将文本控制信息、第一特征序列和第二特征序列输入至第二阶段模型。其中，第二阶段模型可以由一个24层的基于自注意力机制的双向翻译模型(Transformer模型)的编码器(BidirectionalEncoder Representation from Transformers，简称BERT)来实现，可以理解的是，第二阶段模型所实现的网络层数并不限于上述所描述的网络层数，具体可以根据数据处理资源和数据处理需求来进行相对应的网络配置操作，一般情况下，网络层数越多，图像处理质量和效率越好，同时也会消耗更多的数据处理资源。在第二阶段模型获取到文本控制信息、第一特征序列和第二特征序列之后，可以对文本控制信息所对应的文本特征、第一特征序列和第二特征序列进行分析处理，从而可以获得用于生成至少一个第一图像的至少一个目标图像编码。在获取到至少一个目标图像编码之后，可以将目标图像编码传输至第一阶段模型。

在第一阶段模型获取到目标图像编码之后，可以通过预设映射规则将目标图像编码还原成目标图像特征序列，而后通过第一阶段模型中的解码器对目标图像特征序列进行解码操作，从而实现了一系列的目标图像特征序列恢复成相对应的至少一个第一图像。可以理解的是，所生成的第一图像的数量可以为一个或多个。由上可知，第一阶段模型不仅能够将图像量化呈相对应的特征序列，还能够将一个给定特征序列还原成一张图像。

在一些实例中，为了提高图像生成的质量和效率，可以通过循环迭代的方式不断地对文本控制信息、第一特征序列和第二特征序列进行分析处理，以能够不断地获取到用于生成至少一个第一图像的至少一个目标图像编码。具体的，对于原始图像信息而言，与原始图像信息相对应的第二特征序列中的至少部分为掩码序列，掩码序列即为需要进行预测操作的数据。具体的，在一些实例中，图像生成组件102基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像可以包括：在第二特征序列中确定第一待预测掩码，第一待预测掩码为掩码序列的一部分；基于文本控制信息和第一特征序列对第一待预测掩码进行预测，获得至少一个第一图像特征序列；而后对至少一个第一图像特征序列进行解码处理，生成至少一个第一图像，第一图像所对应的掩码序列比例小于原始图像信息所对应的掩码序列比例。

为了能够提高图像生成的质量和效率，逐步地对原始图像信息中的掩码序列进行循环迭代的预测操作，在一些实例中，图像生成组件102在第二特征序列中确定第一待预测掩码可以包括：获取用于限定第一待预测掩码的占比信息；对第二特征序列中的掩码序列进行随机采样，获得与占比信息相对应的第一待预测掩码。

其中，预先配置有用于限定第一待预测掩码的占比信息，该占比信息可以根据具体的应用场景或者应用需求进行配置，例如：占比信息可以为10％、15％或者5％等等。在获取到用于限定第一待预测掩码的占比信息之后，可以基于占比信息对第二特征序列中的掩码序列进行随机采样，从而可以获得与占比信息相对应的第一待预测掩码。

具体的，图像生成组件102对第二特征序列中的掩码序列进行随机采样可以包括：对第二特征序列中的掩码序列进行随机点采样，即基于第一待预测掩码的占比信息来确定所采集掩码序列的编码数量，然后，随机采样需要进行预测操作的掩码位置，从而实现了迭代过程中的点状掩码随机采样操作。

和/或，图像生成组件102对第二特征序列中的掩码序列进行随机采样可以包括：将第二特征序列中的掩码序列全部采样，用于实现对一整张图像的图像补全操作。举例来说，原始图像信息所对应的第二特征序列的全部均为掩码序列，在掩码序列为256个掩码时，对全部的掩码序列进行采样和预测之后，可以生成与256个掩码相对应的编码值，从而实现了对掩码序列的预测操作。

和/或；图像生成组件102对第二特征序列中的掩码序列进行随机采样可以包括：对第二特征序列中的掩码序列进行随机块采样，即可以随机选择图像中任意大小的掩码区域，然后在上述掩码区域内进行掩码序列的预测操作，该采样方式用于实现部分图像的补全任务。

和/或，图像生成组件102对第二特征序列中的掩码序列进行随机采样可以包括：对第二特征序列中的掩码序列中随机块以外的区域进行采样，即可以随机选择图像中任意大小的掩码区域，然后对掩码区域外的部分进行掩码序列的预测操作。可以理解的是，在不同的应用场景/设计需求中，可以采用不同的方式来对第二特征序列中的掩码序列进行随机采样操作。

在确定第一待预测掩码之后，可以基于文本控制信息和第一特征序列对第一待预测掩码进行一次预测操作，获得进行预测之后的至少一个第一图像特征序列，该第一图像特征序列中的掩码序列占比小于第二特征图像中的掩码序列比例。在生成至少一个第一图像特征序列之后，可以基于至少一个第一图像特征序列来生成至少一个第一图像。

在一些实例中，在生成至少一个第一图像之后，为了进一步提高图像生成的质量和效率，可以基于渐进式非自回归生成算法(PNAG)来进行图像的迭代生成操作。具体的，本实施例中的信息获取组件101还可以用于：获取至少一个第一图像各自对应的图像质量；图像生成组件102用于基于至少一个第一图像各自对应的图像质量，在至少一个第一图像中确定一目标图像；基于文本控制信息和第一特征序列对目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像，第二图像所对应的掩码序列比例小于第一图像所对应的掩码序列比例。

其中，信息获取组件101获取至少一个第一图像各自对应的图像质量可以包括：获取文本控制信息和图像控制信息与各个第一图像之间的关联度；确定至少一个第一图像各自对应的真实度；基于关联度和真实度，确定至少一个第一图像各自对应的图像质量。

在获取到至少一个第一图像之后，可以对文本控制信息、图像控制信息和各个第一图像进行分析处理，以获取文本控制信息和图像控制信息与各个第一图像之间的关联度，具体的，预先训练有用于对文本控制信息和图像控制信息与各个第一图像进行分析处理的第一网络模型，可以理解的是，该第一网络模型为一个二元分类的线性分类器，用于判断控制信号与当前生成图像之间的相关性，其中，在对第一网络模型进行训练时，负样本可以通过对任意两个训练实例的控制信号进行互换来获得。

在获取到文本控制信息、图像控制信息和各个第一图像之后，可以将文本控制信息、图像控制信息和各个第一图像输入至第一网络模型，从而获取到文本控制信息和图像控制信息与各个第一图像之间的关联度，具体的，关联度可以用token[REL]来标识，该关联度可以用0到1之间的数值进行表示，在数值越接近1时，则说明文本控制信息和图像控制信息与第一图像之间的关联度较高；在数值越接近0时，则说明文本控制信息和图像控制信息与第一图像之间的关联度较低。

相类似的，预先训练有用于对各个第一图像的真实度进行分析处理的第二网络模型，在训练生成第二网络模型时，可以以真实的数据集作为正样本，而对于负样本而言，由于不存在“不真实”的负样本，因此，本实施例中的方法可以以合成的图像作为负样本来进行模型的训练操作。此时，在获取到各个第一图像(包括：第一次图像生成操作后的第一图像、多次迭代操作之后的第一图像)之后，可以将第一图像输入至第二网络模型中，获取到第一图像的真实度，真实度用于标识图像的扭曲程度、图像中对象出现异常的程度等异常情况，该真实度可以用[FDL]来标识。可以理解的是，在图像的扭曲程度越高时，则图像的真实度越低；在图像的扭曲程度越低时，则图像的真实度越高。

在获取到关联度和真实度之后，可以对关联度和真实度进行分析处理，以确定至少一个第一图像各自对应的图像质量，在一些实例中，基于关联度和真实度，确定至少一个第一图像各自对应的图像质量可以包括：对关联度和真实度进行加权求和，从而可以获得第一图像的图像质量。

在一些实例中，图像生成组件102基于文本控制信息和第一特征序列对目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像可以包括：获取与目标图像相对应的第二待预测掩码，第二待预测掩码与第一待预测掩码不同；基于文本控制信息和第一特征序列对第二待预测掩码进行预测，获得第二图像特征序列；基于第二图像特征序列，生成至少一个第二图像。

在获取到至少一个第一图像各自对应的图像质量之后，可以基于至少一个第一图像各自对应的图像质量，在至少一个第一图像中确定一目标图像；在一些实例中，可以在所有第一图像中，将图像质量最高的第一图像确定为目标图像。在获取到目标图像之后，可以基于文本控制信息和第一特征序列(数量可以为至少一个)对目标图像所对应的掩码序列进行迭代预测。具体的，在利用渐进式非自回归生成算法(PNAG算法)对原始图像信息的掩码序列进行预测的过程中，每一个位置的掩码值都可以对应有多个预测值，每个预测值可以对应有不同的置信度，而后可以基于置信度对每个掩码位置采集多个不同的预测值来作为输入样例，例如：可以采用5个、10个或者15个等不同置信度分布的多个预测值来作为输入样例进行迭代预测操作，从而可以生成至少一个第二图像，第二图像所对应的掩码序列比例小于第一图像所对应的掩码序列比例。这样有效地实现了在不断地进行图像处理的过程中，选择质量较高的图像掩码序列叠加到原始图像信息上，从而保证了通过不断迭代预测所生成的图像中的掩码序列占比会越来越小，进一步提高了图像生成的质量和效率。

需要注意的是，在对图像进行不断地迭代生成的过程中，在迭代次数少于预设阈值时，迭代预测操作所生成的图像中的掩码序列占比会越来越小，则所生成的图像质量会逐渐增加；在迭代次数高于预设阈值时，所生成的图像质量不会出现明显增加，因此，为了能够获取到质量较高的图像，则可以图像的迭代操作进行有效控制。具体的，图像生成组件102用于在生成至少一个第二图像之后，获取进行多次迭代预测之后所获得的多个图像集合，每个图像集合中包括至少一个第二图像；确定多个图像集合所对应的图像质量变化趋势；基于图像质量变化趋势，对目标图像的迭代预测操作进行控制。

在一些实例中，图像生成组件102基于图像质量变化趋势，对目标图像的迭代预测操作进行控制可以包括：在图像质量变化趋势未处于上升趋势时，则停止对目标图像进行迭代预测操作；或者，在图像质量变化趋势处于上升趋势时，则继续对目标图像进行迭代预测操作。

举例来说，在进行第一次迭代操作之后，可以获取第一图像集合，在基于第一图像集合进行第二次迭代操作之后，可以获取第二图像集合；在基于第二图像集合进行第三次迭代操作之后，可以获取到第三图像集合。可以理解的是，上述各个不同的图像集合中可以包括至少一个第二图像。

在获取到第一图像集合、第二图像集合和第三图像集合之后，可以分别获取第一图像集合中所包括的至少一个第二图像的图像质量代表1(可以为所有第二图像所对应的平均质量、为所有第二图像所对应的最大质量、或者为所有第二图像所对应的质量方差等等)、第二图像集合中所包括的至少一个第二图像的图像质量代表2、第三图像集合中所包括的至少一个第二图像的图像质量代表3。

在获取到图像质量代表1、图像质量代表2和图像质量代表3来获取到图像质量变化趋势，在图像质量代表1<图像质量代表2<图像质量代表3时，则说明图像质量变化趋势处于上升趋势，此时，为了能够获取到较高质量的图像，则可以继续进行图像的迭代预测操作。在图像质量代表1<图像质量代表2>图像质量代表3、图像质量代表1>图像质量代表2<图像质量代表3、或者图像质量代表1>图像质量代表2>图像质量代表3时，则说明图像质量变化趋势未处于上升趋势时，此时可以停止进行图像的迭代预测操作。

上述实现过程，通过PNAG算法可以确定文本控制信息、图像控制信息与生成图像之间的关联度和所生成图像的真实度来指导图像的非自回归迭代的生成方向，而不是无意识地进行图像迭代处理操作，这样有效地保证了图像迭代操作的质量和效率。与此同时，由于每一次迭代操作都可以得到所生成图像的图像质量，如果图像质量在多次迭代操作以内不再上升，则可以停止进行图像的迭代预测操作，从而有效地实现了在不需要迭代固定的步数，具体可以基于不同的应用场景进行不同程度的迭代操作，提高了该方法使用的灵活可靠性。

在又一些实例中，为了满足快速生成高清图片的需要，在获取到第二图像之后，图像生成组件102可以用于：获取第二图像的图像分辨率，在图像分辨率小于设定分辨率时，则对第二图像进行分辨率调整，获得第三图像，第三图像的图像分辨率为设定分辨率。举例来说，在获取到图像分辨率为256*256的第二图像之后，可以利用预先建立的用于调整分辨率的图像生成模型对第二图像进行处理，例如：将图像分辨率由256*256调整为512*512，或者，将图像分辨率由256*256调整为800*800，从而有效地实现了可以生成高分辨率或者超高分辨率的高清图像(即为图像分辨率超过512*512的图像)，需要注意的是，上述的图像生成模型只需要关注图像分辨率的调整操作，从而不仅提高了图像处理的质量和效率，并且该图像生成模型的训练速度较快。

在另一些实例中，在将所生成的第二图像调整为较高分辨率的第三图像时，第三图像中的部分像素点可能会存在失真的情况，此时，可以利用自纠正迭代算法来提升第三图像的图像质量。可选地，在获得第三图像之后，图像生成组件102可以用于：获取第三图像相对应的置信度；确定第三图像中置信度小于预设阈值的图像区域；对图像区域进行预测，获得预测区域；基于预测区域和第三图像，生成与第三图像相对应的第四图像。

具体的，在获取到第三图像之后，可以获取与第三图像中各个像素点所对应的置信度，由于不真实的区域往往是成片的，此时若对第三图像进行随机点状采样，则很难产生图像的自纠正效果。因此，在获取到第三图像中各个像素点所对应的置信度之后，可以基于与各个像素点所对应的置信度确定置信度小于预设阈值的图像区域。在获取到图像区域之后，可以对图像区域进行预测，从而实现了通过对第三图像进行随机块状采样获得预测区域。在获取到预测区域和第三图像之后，可以基于预测区域和第三图像来生成与第三图像相对应的第四图像。简单来说，在迭代生成第三图像之后，可以利用掩码值替换掉第三图像中置信度较低的部分，而后对图像区域进行预测，以实现对第三图像进行重新生成操作，保证了高清图像获取的质量和效率。

在又一些实例中，本实施例中的图像生成组件102可以用于：获取与图像控制信息相对应的多个区域信息；确定多个区域信息各自对应的生成难度，其中，生成难度用于反映区域信息的样式新颖程度；基于生成难度，确定图像控制信息中所包括的目标区域；生成至少一个与目标区域相对应的第一图像。

具体的，本实施例中的上述图像生成系统可以应用于各个应用场景，实现不同的图像处理操作，例如，在将图像生成方法应用于服装领域时，可以实现同款服装的生成操作。具体的，对于服装而言，如果服装的某一区域很难被生成，该区域往往具有以下至少一个特征：(1)比较复杂，如一些纹理、图案等等；(2)比较新奇，比如不对称设计，那么说明该区域相对于其他区域而言是“特殊的”，而同款服饰往往是基于上述具有特殊性的区域来生成的，因此，可以将区域生成的难度作为新奇性分数，用新奇性分数在整个服装所在区域中选择一个或多个区域，以能够自动化生成同款服饰。具体的，图像生成系统中的信息获取组件101和图像生成组件102可以用于执行以下步骤：

步骤1：利用信息获取组件101获取文本控制信息、参考服装图像和待生成服装图像的尺寸信息。

步骤2：利用图像生成组件102获取与参考服装图像相对应的多个区域信息。

步骤3：利用图像生成组件102分别对参考服装图像和待生成服装图像进行编码处理，从而可以获得与参考服装图像相对应的至少一个第一特征序列和与待生成服装图像相对应的第二特征序列。

步骤4：图像生成组件102基于各个区域信息所对应的特征序列来确定多个区域信息各自对应的生成难度。

其中，确定多个区域信息各自对应的生成难度可以包括：获取用于对区域信息进行分析处理的网络模型；利用网络模型对多个区域信息进行处理，获得多个区域信息各自对应的生成难度，该生成难度用于反映区域信息的样式新颖程度。具体的，可以利用预设模型对区域信息所对应的特征序列进行分析处理，以获取与区域信息相对应的制作平均分，基于制作平均分来确定区域信息相对应的生成难度，可以理解的是，制作平均分与生成难度之间呈负相关，即制作平均分越低，则标识该区域信息的款式样式越新奇，即该区域信息越难生成。

步骤5：图像生成组件102基于生成难度，确定参考服装图像中所包括的目标区域。

在获取到生成难度之后，可以将生成难度与预设阈值进行分析比较，在生成难度大于或等于预设阈值时，则说明与生成难度相对应的区域信息的图案、款式比较新奇，进而可以将与上述生成难度相对应的区域信息确定为参考服装图像中所包括的目标区域，该目标区域即为要生成的同款服饰中所包括的区域，其中，所获得的目标区域的数量可以为一个或多个，具体的，可以选择一个或多个新奇性较高的区域来作为目标区域(即图像控制信息)，从而可以自动化地生成多种同款服饰图像。

步骤6：在确定参考服装图像中所包括的目标区域之后，图像生成组件102可以基于文本控制信息、目标区域所对应的至少一个第一特征序列和第二特征序列，生成至少一个目标服饰图像，该目标服饰图像中包括目标区域，即该目标服饰图像中包括与参考服装图像相同的款式、图案或者样式等等。

本实施例提供的图像生成系统，通过信息获取组件101获取文本控制信息、图像控制信息和原始图像信息，而后通过图像生成组件102对文本控制信息、图像控制信息等多模态的控制信号来灵活地生成图像进行分析处理，这样实现了对多模态数据进行统一处理操作，以生成图像，具体的，该图像生成系统采用二阶段范式来实现图像处理操作，并且在二阶段范式中的第二阶段引入了基于BERT的非自回归生成算法，这样不仅可以实现基于文本控制信息、图像控制信息等多模态数据作为控制信号来生成图像，并且还能够基于文本控制信息和图像控制信息与所生成图像之间的关联度和所生成图像的图像质量来作为图像循环迭代预测操作的输入信号，进而保证了图像生成的质量和效率。另外，该图像生成系统采用非自回归生成一次性生成了所有特征序列，特征序列的生成时间只和迭代次数有关，与序列长度无关，图像处理速度较快，且任意两个特征序列之间可以互相交互，这样有利于提升图像生成的一致性。此外，该图像生成系统还能够结合用于生成超分辨率的图像的网络模型来生成高分辨率或者超高分辨率的图像。在将该图像生成系统应用于服装领域时，可以自动发现服饰中的潮流元素或者所关注区域中，并可以基于潮流元素或者所关注区域来生成同款服饰图像，上述实现过程有效地实现了图像的自动化生成操作，进一步提高了该图像生成系统使用的灵活可靠性。

下面结合方法实施例，针对图像生成方法的应用场景和处理过程进行详细说明。

图3为本申请一示例性实施例的一种图像生成方法的流程示意图；参考附图3所示，本实施例提供了一种图像生成方法，该图像生成方法的执行主体可以为图像生成装置，该图像生成装置可以实现为软件、或者软件和硬件的组合，具体的，该图像生成方法可以包括：

步骤S301：获取文本控制信息、图像控制信息和原始图像信息。

步骤S302：将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域。

步骤S303：基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

以下针对上述步骤进行详细阐述：

其中，文本控制信息、图像控制信息和原始图像信息用于作为图像生成操作的控制信号，上述的文本控制信息可以是指任意长度的关键字序列，用于作为图像生成的文本控制信号；原始图像信息用于限定所生成图像的尺寸特征，在一些实例中，原始图像信息可以为待生成图像；图像控制信息用于作为图像生成的视觉控制信号，该图像控制信息可以图像素材，而图像素材可以包括一个或多个素材维度。具体的，本实施例对于获取文本控制信息、图像控制信息和原始图像信息的具体实现方式不做限定，例如：客户端上设置有交互界面，通过交互界面获取用户输入的执行操作，通过执行操作来获取文本控制信息、图像控制信息和原始图像信息；或者，客户端上可以设置有特定接口，通过特定接口可以获取到文本控制信息、图像控制信息和原始图像信息。在获取到文本控制信息、图像控制信息和原始图像信息之后，将文本控制信息、图像控制信息和原始图像信息通过设定接口至图像生成装置，以使得图像生成装置获取到文本控制信息、图像控制信息和原始图像信息。

由于图像控制信息和原始图像信息均是视觉控制信号，而文本控制信息与上述图像控制信息属于不同模态的数据，为了能够对多模态数据进行融合处理，在获取到图像控制信息和原始图像信息之后，可以分别对图像控制信息和原始图像信息进行信息转换处理，以确定与图像控制信息相对应的至少一个第一特征序列和与原始图像信息相对应的第二特征序列，该第二特征序列中的至少部分为掩码序列，该掩码序列用于表征需要进行图像生成操作的图像区域。具体的，在需要生成一个完整的图像时，则第二特征序列中的全部为掩码序列；在需要补全部分图像时，则第二特征序列中的一部分为掩码序列。

在一些实例中，将图像控制信息转换为第一特征序列可以包括：对图像控制信息进行编码处理，获得与图像控制信息相对应的至少一个图像特征；利用预设映射规则对至少一个图像特征进行量化处理，获得至少一个图像特征各自对应的第一特征序列。

在获取到图像控制信息之后，可以利用训练好的网络模型对图像控制信息进行编码处理，从而获得与图像控制信息相对应的至少一个图像特征，该图像特征可以包括：颜色特征、纹理特征、花纹图案特征、材质特征、款型特征等等。在获取到至少一个图像特征之后，可以利用预设映射规则对至少一个图像特征进行量化处理，从而可以获得与至少一个图像特征各自对应的第一特征序列。具体的，在第一特征序列的数量为多个时，为了方便对任意数量的图像特征进行应用，在任意两个图像特征所对应的第一特征序列之间可以通过分割标识符“SEP”进行分割操作。

在获取到文本控制信息、第一特征序列和第二特征序列之后，可以对文本控制信息、第一特征序列和第二特征序列进行分析处理，以生成至少一个第一图像。在一些实例中，基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像可以包括：基于文本控制信息、第一特征序列和第二特征序列，确定至少一个第一图像特征序列；对至少一个第一图像特征序列进行解码处理，生成至少一个第一图像，第一图像所对应的掩码序列比例小于原始图像信息所对应的掩码序列比例。

在获取到文本控制信息、第一特征序列和第二特征序列之后，可以将文本控制信息、第一特征序列和第二特征序列输入至训练好的网络模型中，网络模型可以基于多模态的控制信号输出至少一个第一图像特征序列。在一些实例中，基于文本控制信息、第一特征序列和第二特征序列，确定至少一个第一图像特征序列包括：在第二特征序列中确定第一待预测掩码，第一待预测掩码为掩码序列的一部分；基于文本控制信息和至少一个第一特征序列对第一待预测掩码进行预测，获得至少一个第一图像特征序列。

具体的，在获取到第二特征序列之后，可以在第二特征序列中确定第一待预测掩码，该第一待预测掩码为掩码序列的一部分，在一些实例中，在第二特征序列中确定第一待预测掩码可以包括：获取用于限定第一待预测掩码的占比信息；对第二特征序列中的掩码序列进行随机采样，获得与占比信息相对应的第一待预测掩码。其中，对第二特征序列中的掩码序列进行随机采样可以包括：对第二特征序列中的掩码序列进行随机点采样；和/或，将第二特征序列中的掩码序列全部采样；和/或；对第二特征序列中的掩码序列进行随机块采样；和/或，对第二特征序列中的掩码序列中随机块以外的区域进行采样。

在获取到第一待预测掩码之后，可以基于文本控制信息和第一特征序列对第一待预测掩码进行预测，获得至少一个第一图像特征序列。而后可以对至少一个第一图像特征序列进行解码处理，从而可以生成至少一个第一图像，所生成的第一图像所对应的掩码序列比例小于原始图像信息所对应的掩码序列比例，从而有效地实现了对原始图像信息所对应的至少部分掩码序列进行预测操作。

本实施例提供的图像生成方法，通过获取文本控制信息、图像控制信息和原始图像信息，将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，并基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像，有效地实现了可以基于文本控制信息、图像控制信息等多模态数据作为控制信号来自动化地生成图像，并且，保证了图像生成的质量和效率，降低了图像生成成本，适用于大规模批量化设计，进一步提高了该图像生成方法的实用性，有利于市场的推广与应用。

图4为本申请另一示例性实施例的一种图像生成方法的流程示意图；在上述实施例的基础上，参考附图4所示，在生成至少一个第一图像之后，本实施例中的方法还包括：

步骤S401：获取至少一个第一图像各自对应的图像质量。

在生成至少一个第一图像之后，可以对至少一个第一图像进行分析处理，以获取至少一个第一图像各自对应的图像质量。在一些实例中，获取至少一个第一图像各自对应的图像质量可以包括：获取文本控制信息和图像控制信息与各个第一图像之间的关联度；确定至少一个第一图像各自对应的真实度；基于关联度和真实度，确定至少一个第一图像各自对应的图像质量。

具体的，预先训练有用于对文本控制信息、图像控制信息与各个第一图像进行分析处理的第一网络模型，可以理解的是，该第一网络模型为一个二元分类的线性分类器，用于判断控制信号与生成图像之间的相关性和关联度，在对第一网络模型进行训练时，负样本可以通过对任意两个训练实例的控制信号进行互换来获得。在获取到文本控制信息、图像控制信息和各个第一图像之后，可以将文本控制信息、图像控制信息和各个第一图像输入至第一网络模型，从而可以获取到文本控制信息和图像控制信息与各个第一图像之间的关联度，该关联度可以用标识token[REL]来进行表示，该关联度可以为0到1之间的数值，在数值越接近1时，则说明文本控制信息和图像控制信息与第一图像之间的关联度较高；在数值越接近0时，则说明文本控制信息和图像控制信息与第一图像之间的关联度较低。

相类似的，预先训练有用于对第一图像的真实度进行分析处理的第二网络模型，在训练生成第二网络模型时，可以以真实的数据集作为正样本，而对于负样本而言，由于数据集中不存在“不真实”的负样本，因此，本实施例中的方法可以以合成的图像作为负样本来进行模型训练操作。此时，在获取到各个第一图像之后，可以将第一图像输入至第二网络模型中，获取到至少一个第一图像各自对应的真实度，该真实度用于标识图像的扭曲程度、图像中对象出现异常的程度等非正常情况，具体可以用标识[FDL]来进行表示。可以理解的是，在图像的扭曲程度越高时，则说明图像的真实度越低；在图像的扭曲程度越低时，则说明图像的真实度越高。

步骤S402：基于至少一个第一图像各自对应的图像质量，在至少一个第一图像中确定一目标图像。

在获取到至少一个第一图像各自对应的图像质量之后，可以将所有第一图像对应的图像质量进行分析比较，以基于分析比较结果在至少一个第一图像中确定一目标图像。在一些实例中，基于至少一个第一图像各自的图像质量，在至少一个第一图像中确定一目标图像可以包括：在所有第一图像中，将图像质量最高的第一图像确定为目标图像，从而有效地保证了对目标图像进行确定的准确可靠性。

步骤S403：基于文本控制信息和第一特征序列对目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像，第二图像所对应的掩码序列比例小于第一图像所对应的掩码序列比例。

在获取到文本控制信息和第一特征序列之后，可以基于文本控制信息和第一特征序列对目标图像所对应的掩码序列进行迭代预测，从而可以生成至少一个第二图像，该第二图像所对应的掩码序列比例小于第一图像所对应的掩码序列比例。在一些实例中，基于文本控制信息和第一特征序列对目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像包括：获取与目标图像相对应的第二待预测掩码，第二待预测掩码与第一待预测掩码不同；基于文本控制信息和第一特征序列对第二待预测掩码进行预测，获得第二图像特征序列；基于第二图像特征序列，生成至少一个第二图像。

具体的，可以利用渐进式非自回归生成算法(PNAG算法)对原始图像信息的掩码序列进行预测，在进行预测的过程中，对于每一个位置的掩码值都可以对应有多个预测值，每个预测值可以对应各自的置信度，而后可以基于置信度来对每个掩码位置采集多个不同的预测值来作为输入样例，例如：可以采用5个、10个或者15个等不同置信度分布的多个预测值来作为输入样例进行迭代预测操作，从而生成至少一个第二图像，第二图像所对应的掩码序列比例小于第一图像所对应的掩码序列比例。这样有效地实现了在不断地进行图像迭代预测的过程中，可以选择质量较高的图像掩码序列叠加到原始图像信息上，从而保证了通过不断迭代预测操作使得所生成的图像中的掩码序列占比会越来越小，进一步提高了所生成图像的质量和效率。

本实施例中，通过获取至少一个第一图像各自对应的图像质量，基于至少一个第一图像各自对应的图像质量，在至少一个第一图像中确定一目标图像，并基于文本控制信息和至少一个第一特征序列对目标图像所对应的掩码序列进行迭代预测来生成至少一个第二图像，从而实现了可以基于所生成图像的图像质量来进行不断地的图像迭代预测操作，进一步提高了图像生成的质量和效率。

图5为本申请又一示例性实施例的一种图像生成方法的流程示意图；在上述实施例的基础上，参考附图5所示，在生成至少一个第二图像之后，本实施例中的方法还包括：

步骤S501：获取进行多次迭代预测之后所获得的多个图像集合，每个图像集合中包括至少一个第二图像。

步骤S502：确定多个图像集合所对应的图像质量变化趋势。

步骤S503：基于图像质量变化趋势，对目标图像的迭代预测操作进行控制。

一般情况下，在对图像进行迭代生成的过程中，在迭代次数少于预设阈值时，迭代预测操作所生成的图像中的掩码序列占比会越来越小，则所生成的图像质量会逐渐增加；在迭代次数高于预设阈值时，所生成的图像质量不会出现明显增加，因此，为了能够获取到质量较高的图像，则可以对迭代次数进行有效控制。具体的，可以获取进行多次迭代预测之后所获得的多个图像集合，每个图像集合中包括至少一个第二图像；确定多个图像集合所对应的图像质量变化趋势；基于图像质量变化趋势，对目标图像的迭代预测操作进行控制。

在一些实例中，基于图像质量变化趋势，对目标图像的迭代预测操作进行控制可以包括：在图像质量变化趋势未处于上升趋势时，则停止对目标图像进行迭代预测操作；或者，在图像质量变化趋势处于上升趋势时，则继续对目标图像进行迭代预测操作。

举例来说，在进行第一次迭代操作之后，可以获取第一图像集合，之后可以基于第一图像集合中的某一图像进行第二次迭代操作，在基于第一图像集合中的某一图像进行第二次迭代操作之后，可以获取第二图像集合，之后可以基于第二图像集合中的某一图像进行第三次迭代操作，在基于第二图像集合进行第三次迭代操作之后，可以获取到第三图像集合。可以理解的是，上述各个不同的图像集合中可以包括至少一个第二图像。

在获取到第一图像集合、第二图像集合和第三图像集合之后，可以分别获取第一图像集合所对应的图像质量代表1(可以为所有第二图像所对应的平均质量、所有第二图像所对应的最大质量、或者所有第二图像所对应的质量方差等等)、第二图像集合所对应的图像质量代表2、第三图像集合所对应的图像质量代表3。

在获取到图像质量代表1、图像质量代表2和图像质量代表3之后，可以获取到图像质量变化趋势，在图像质量代表1<图像质量代表2<图像质量代表3时，则说明图像质量变化趋势处于上升趋势，此时，为了能够获取到较高质量的图像，则可以继续对目标图像进行迭代预测操作。在图像质量代表1<图像质量代表2>图像质量代表3、图像质量代表1>图像质量代表2<图像质量代表3、或者图像质量代表1>图像质量代表2>图像质量代表3时，则说明图像质量变化趋势未处于上升趋势时，此时可以停止对目标图像进行迭代预测操作。

在另一些实例中，在停止对目标图像进行迭代预测操作之后，该方法还可以包括：基于多个图像集合所对应的图像质量变化趋势，在多个图像集合中确定一目标图像集合，目标图像集合所对应的图像质量大于其他图像集合所对应的图像质量；输出目标图像集合中所包括的第二图像，从而有效地实现了可以获得质量较高的第二图像。

本实施例中，通过PNAG算法对控制信号与生成图像之间的关联度和所生成图像的真实度来作为指导的图像进行非自回归迭代的生成方向，这样使得图像生成操作并不是无意识地进行图像迭代处理操作，与此同时，由于每一次迭代操作都可以得到所生成图像的图像质量，如果图像质量在多次迭代操作以内不再上升，则可以停止进行图像的迭代预测操作，从而有效地实现了在不需要迭代固定的步数，具体可以基于不同的应用场景进行不同程度的迭代操作，提高了该方法使用的灵活可靠性；并且，在停止迭代操作之后，可以输出图像质量较高的第二图像，这样进一步提高了图像生成的质量和效率，有利于满足用户的个性化需求。

图6为本申请再一示例性实施例的一种图像生成方法的流程示意图；在上述实施例的基础上，参考附图6所示，在生成至少一个第二图像之后，本实施例中的方法还包括：

步骤S601：获取第二图像的图像分辨率；

步骤S602：在图像分辨率小于设定分辨率时，则对第二图像进行分辨率调整，获得第三图像，第三图像的图像分辨率为设定分辨率。

在生成至少一个第二图像之后，可以获取第二图像的图像分辨率，而后将图像分辨率与设定分辨率进行分析比较，在图像分辨率大于或等于设定分辨率时，则说明所生成的第二图像的图像分辨率较高，一般情况下可以满足用户的使用需求。在图像分辨率小于设定分辨率时，则说明所生成的第二图像的图像分辨率较低，不能满足用户的使用需求，因此可以对第二图像进行分辨率调整，具体的，可以将第二图像的分辨率由当前图像分辨率调整为设定分辨率，这样有效地实现了可以由低分辨率的图像直接生成高分辨率的图像。

在又一些实例中，在获得第三图像之后，本实施例中的方法还可以包括：获取第三图像相对应的置信度；确定第三图像中置信度小于预设阈值的图像区域；对图像区域进行预测，获得预测区域；基于预测区域和第三图像，生成与第三图像相对应的第四图像。

在将所生成的第二图像调整为较高分辨率的第三图像时，第三图像中的部分像素点可能会存在失真的情况，此时，可以利用自纠正迭代算法来提升所生成的第三图像的图像质量。具体的，在获取到第三图像之后，可以获取与第三图像中各个像素点所对应的置信度，由于不真实的区域往往是成片的，此时若进行随机点状采样，并基于点状采样后的数据进行自纠正操作，则很难产生自纠正的效果。因此，可以基于与第三图像中各个像素点所对应的置信度确定第三图像中置信度小于预设阈值的图像区域，在获取到图像区域之后，可以对图像区域进行预测，从而获得预测区域。在获取到预测区域和第三图像之后，可以基于预测区域和第三图像来生成与第三图像相对应的第四图像。简单来说，在迭代生成第三图像之后，可以利用掩码值替换掉第三图像中置信度较低的部分，而后对图像区域进行预测，以实现对第三图像进行重新生成操作，保证了高清图像获取的质量和效率。

本实施例中，通过获取第二图像的图像分辨率，在图像分辨率小于设定分辨率时，则对第二图像进行分辨率调整，获得第三图像，第三图像的图像分辨率为设定分辨率，从而有效地实现了可以将低分辨率的图像调整为高分辨率的图像，从而有利于满足各个用户的个性化需求。

图7为本申请另一示例性实施例的一种图像生成方法的流程示意图；在上述任意一个实施例的基础上，参考附图7所示，本实施例中的方法还可以包括：

步骤S701：获取与图像控制信息相对应的多个区域信息。

步骤S702：确定多个区域信息各自对应的生成难度，生成难度用于反映区域信息的样式新颖程度。

步骤S703：基于生成难度，确定图像控制信息中所包括的目标区域。

步骤S704：生成至少一个与目标区域相对应的第一图像。

在获取到图像控制信息之后，可以对图像控制信息进行分析处理，以获取与图像控制信息相对应的多个区域信息，在获取到与图像控制信息相对应的多个区域信息之后，可以对各个区域信息进行分析处理，以确定各个区域信息各自对应的生成难度。具体的，确定多个区域信息各自对应的生成难度可以包括：获取用于对区域信息进行分析处理的网络模型；利用网络模型对多个区域信息进行处理，获得多个区域信息各自对应的生成难度。

在确定多个区域信息各自对应的生成难度之后，可以对多个区域信息各自对应的生成难度进行分析处理，以确定图像控制信息中所包括的目标区域，具体的，基于生成难度，确定图像控制信息中所包括的目标区域可以包括：将生成难度大于或等于预设阈值的区域信息，确定为图像控制信息中所包括的目标区域。

在获取到生成难度之后，可以将生成难度与预设阈值进行分析比较，在生成难度大于或等于预设阈值时，则说明与生成难度相对应的区域信息的图案、款式比较新奇，进而可以将上述与图像生成难度相对应的区域信息确定为图像控制信息中所包括的目标区域，该目标区域即为要生成的同款服饰中所包括的区域。具体的，可以利用预设模型对区域信息所对应的特征序列进行分析处理，以获取与区域信息相对应的制作平均分，基于制作平均分来确定区域信息相对应的生成难度，可以理解的是，制作平均分与生成难度之间呈负相关，即制作平均分越低，则标识该区域信息越新奇，即该区域信息越难生成。而后，可以选择一个或多个新奇性较高的区域来作为目标区域(素材)，以可以自动化地生成与目标区域相对应的至少一个第一图像，从而有效地实现了同款图像的生成操作。

本实施例中，通过获取与图像控制信息相对应的多个区域信息，确定多个区域信息各自对应的生成难度，而后基于生成难度，确定图像控制信息中所包括的目标区域，并生成至少一个与目标区域相对应的第一图像，在将上述方法应用于服装领域时，可以实现自动地发现服饰图像中的潮流元素或者所关注区域，并可以基于潮流元素或者所关注区域来生成同款服饰图像，上述实现过程有效地实现了图像的自动化生成操作，并且实现方式简单、可靠，生产成本较低，有利于批量产生图像，进一步提高了该方法的实用性。

图8为本申请又一示例性实施例的一种图像生成方法的流程示意图；参考附图8所示，本实施例提供了另一种图像生成方法，该图像生成方法的执行主体可以为图像生成装置，该图像生成装置可以实现为软件、或者软件和硬件的组合，具体的，该图像生成方法包括：

步骤S801：响应于调用图像生成请求，确定图像生成服务对应的处理资源。

步骤S802：利用处理资源执行如下步骤：获取文本控制信息、图像控制信息和原始图像信息；将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域；基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

具体的，本发明提供的图像生成方法可以在云端来执行，在云端可以部署有若干计算节点，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。

针对本发明提供的方案，云端可以提供有用于完成图像生成方法的服务，称为图像生成服务。当用户需要使用该图像生成服务的时候，调用该图像生成服务，以向云端触发调用该图像生成服务的请求，在该请求中可以携带有文本控制信息、图像控制信息和原始图像信息。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：获取文本控制信息、图像控制信息和原始图像信息；将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域；基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

具体的，本实施例中的上述方法步骤的实现过程、实现原理和实现效果与上述图1-图7所示实施例的方法步骤的实现过程、实现原理和实现效果相类似，本实施例未详细描述的部分，可参考对图1-图7所示实施例的相关说明。

图9为本申请另一示例性实施例的一种图像生成方法的流程示意图；参考附图9所示，本实施例提供了另一种图像生成方法，该图像生成方法可以基于所提供的参考服装图像来生成同款服装图像，另外，该图像生成方法的执行主体可以为图像生成装置，该图像生成装置可以实现为软件、或者软件和硬件的组合，具体的，该图像生成方法可以包括：

步骤S901：获取文本控制信息、服装图像控制信息和原始图像信息。

其中，文本控制信息、服装图像控制信息和原始图像信息用于作为图像生成操作的控制信号，上述的文本控制信息可以是指任意长度的关键字序列，用于作为图像生成的文本控制信号；原始图像信息用于限定所生成图像的尺寸特征，服装图像控制信息用于作为图像生成的视觉控制信号，具体的，服装图像控制信息可以包括以下至少之一：服装纹理图像、服装颜色图像、服装图案图像、服装款式图像、服装风格图像等等。

具体的，本实施例中的上述步骤的实现方式和实现效果与上述实施例中的步骤S301的实现方式和实现效果相类似，具体可参考上述陈述内容，在此不再赘述。

步骤S902：基于服装图像控制信息，确定至少一个服装关注区域。

在获取到服装图像控制信息之后，可以对服装图像控制信息进行分析处理，以获取与服装图像控制信息相对应的至少一个服装关注区域。在一些实例中，基于服装图像控制信息，确定至少一个服装关注区域可以包括：将服装图像控制信息划分为多个服装区域，确定各个服装区域所对应的生成难度；基于生成难度确定至少一个服装关注区域。

在获取到服装图像控制信息之后，可以将服装图像控制信息划分为多个服装区域，而后获取用于对服装区域进行分析处理的网络模型；利用网络模型对多个服装区域进行处理，获得多个服装区域各自对应的生成难度。在确定多个服装区域各自对应的生成难度之后，可以将生成难度大于或等于预设阈值的服装区域，确定为服装图像控制信息中所包括的至少一个服装关注区域。具体的，在获取到生成难度之后，可以将生成难度与预设阈值进行分析比较，在生成难度大于或等于预设阈值时，则说明与生成难度相对应的服装区域的图案、款式比较新奇，进而可以将上述与图像生成难度相对应的服装区域确定为服装图像控制信息中所包括的服装关注区域，该服装关注区域即为要生成的同款服饰中所包括的区域，从而有利于实现同款服饰图像的生成操作。

步骤S903：基于文本控制信息、至少一个服装关注区域和原始图像信息，生成至少一个目标服装图像，目标服装图像中包括由所述文本控制信息、至少一个服装关注区域和原始图像信息进行融合处理后的图像。

在获取到至少一个服装关注区域之后，可以对文本控制信息、至少一个服装关注区域和原始图像信息进行分析处理，以生成可以包括至少一个服装关注区域的至少一个目标服装图像，从而有效地实现了同款服饰图像的生成操作。

本实施例提供的图像生成方法，通过获取文本控制信息、服装图像控制信息和原始图像信息，基于服装图像控制信息确定至少一个服装关注区域，并基于文本控制信息、至少一个服装关注区域和原始图像信息生成至少一个目标服装图像，其中，目标服装图像中包括至少一个服装关注区域，有效地实现了能够基于多模态数据自动化地生成同款服饰图像，这样不仅提高了同款服饰图像的设计质量和效率，降低了图像生成成本，并且适用于大规模批量化设计，进一步提高了该图像生成方法的实用性，有利于市场的推广与应用。

图10为本申请一示例性实施例的一种图像生成装置的结构示意图；参考附图10所示，本实施例提供了一种图像生成装置，该图像生成装置可以执行上述图3所示的图像生成方法，具体的，该图像生成装置可以包括：

第一获取模块11，用于获取文本控制信息、图像控制信息和原始图像信息；

第一确定模块12，用于将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域；

第一处理模块13，用于基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

在一些实例中，在第一确定模块12将图像控制信息转换为第一特征序列时，该第一确定模块12用于：对图像控制信息进行编码处理，获得与图像控制信息相对应的至少一个图像特征；利用预设映射规则对至少一个图像特征进行量化处理，获得至少一个图像特征各自对应的第一特征序列。

在一些实例中，在第一处理模块13基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像时，该第一处理模块13用于执行：基于文本控制信息、第一特征序列和第二特征序列，确定至少一个第一图像特征序列；对至少一个第一图像特征序列进行解码处理，生成至少一个第一图像，第一图像所对应的掩码序列比例小于原始图像信息所对应的掩码序列比例。

在一些实例中，在第一处理模块13基于文本控制信息、第一特征序列和第二特征序列，确定至少一个第一图像特征序列时，该第一处理模块13用于执行：在第二特征序列中确定第一待预测掩码，第一待预测掩码为掩码序列的一部分；基于文本控制信息和对第一待预测掩码进行预测，获得至少一个第一图像特征序列。

在一些实例中，在第一处理模块13在第二特征序列中确定第一待预测掩码时，该第一处理模块13用于执行：获取用于限定第一待预测掩码的占比信息；对第二特征序列中的掩码序列进行随机采样，获得与占比信息相对应的第一待预测掩码。

在一些实例中，在第一处理模块13对第二特征序列中的掩码序列进行随机采样时，该第一处理模块13用于执行：对第二特征序列中的掩码序列进行随机点采样；和/或，将第二特征序列中的掩码序列全部采样；和/或；对第二特征序列中的掩码序列进行随机块采样；和/或，对第二特征序列中的掩码序列中随机块以外的区域进行采样。

在一些实例中，在生成至少一个第一图像之后，本实施例中的第一获取模块11、第一确定模块12和第一处理模块13分别用于执行：

第一获取模块11，用于获取至少一个第一图像各自对应的图像质量；

第一确定模块12，用于基于至少一个第一图像各自对应的图像质量，在至少一个第一图像中确定一目标图像；

第一处理模块13，用于基于文本控制信息和第一特征序列对目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像，第二图像所对应的掩码序列比例小于第一图像所对应的掩码序列比例。

在一些实例中，在第一获取模块11获取至少一个第一图像各自对应的图像质量时，该第一获取模块11用于执行：获取文本控制信息和图像控制信息与各个第一图像之间的关联度；确定至少一个第一图像各自对应的真实度；基于关联度和真实度，确定至少一个第一图像各自对应的图像质量。

在一些实例中，在第一确定模块12基于至少一个第一图像各自的图像质量，在至少一个第一图像中确定一目标图像时，该第一确定模块12用于执行：在所有第一图像中，将图像质量最高的第一图像确定为目标图像。

在一些实例中，在第一处理模块13基于文本控制信息和第一特征序列对目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像时，该第一处理模块13用于执行：获取与目标图像相对应的第二待预测掩码，第二待预测掩码与第一待预测掩码不同；基于文本控制信息和第一特征序列对第二待预测掩码进行预测，获得第二图像特征序列；基于第二图像特征序列，生成至少一个第二图像。

在一些实例中，在生成至少一个第二图像之后，本实施例中的第一获取模块11、第一确定模块12和第一处理模块13分别用于执行：

第一获取模块11，用于获取进行多次迭代预测之后所获得的多个图像集合，每个图像集合中包括至少一个第二图像；

第一确定模块12，用于确定多个图像集合所对应的图像质量变化趋势；

第一处理模块13，用于基于图像质量变化趋势，对目标图像的迭代预测操作进行控制。

在一些实例中，在第一处理模块13基于图像质量变化趋势，对目标图像的迭代预测操作进行控制时，该第一处理模块13用于执行：在图像质量变化趋势未处于上升趋势时，则停止对目标图像进行迭代预测操作；或者，在图像质量变化趋势处于上升趋势时，则继续对目标图像进行迭代预测操作。

在一些实例中，在停止对目标图像进行迭代预测操作之后，本实施例中的第一确定模块12和第一处理模块13分别用于执行：

第一确定模块12，用于基于多个图像集合所对应的图像质量变化趋势，在多个图像集合中确定一目标图像集合，目标图像集合所对应的图像质量大于其他图像集合所对应的图像质量；

第一处理模块13，用于输出目标图像集合中所包括的第二图像。

在一些实例中，在生成至少一个第二图像之后，本实施例中的第一获取模块11和第一处理模块13分别用于执行：

第一获取模块11，用于获取第二图像的图像分辨率；

第一处理模块13，用于在图像分辨率小于设定分辨率时，则对第二图像进行分辨率调整，获得第三图像，第三图像的图像分辨率为设定分辨率。

在一些实例中，在获得第三图像之后，本实施例中的第一获取模块11、第一确定模块12和第一处理模块13分别用于执行：

第一获取模块11，用于获取第三图像相对应的置信度；

第一确定模块12，用于确定第三图像中置信度小于预设阈值的图像区域；

第一处理模块13，用于对图像区域进行预测，获得预测区域；

第一处理模块13，还用于基于预测区域和第三图像，生成与第三图像相对应的第四图像。

在一些实例中，本实施例中的第一获取模块11、第一确定模块12和第一处理模块13分别用于执行：

第一获取模块11，用于获取与图像控制信息相对应的多个区域信息；

第一确定模块12，用于确定多个区域信息各自对应的生成难度，生成难度用于反映区域信息的样式新颖程度；

第一确定模块12，还用于基于生成难度，确定图像控制信息中所包括的目标区域；

第一处理模块13，用于生成至少一个与目标区域相对应的第一图像。

在一些实例中，在第一确定模块12确定多个区域信息各自对应的生成难度时，该第一确定模块12用于：获取用于对区域信息进行分析处理的网络模型；利用网络模型对多个区域信息进行处理，获得多个区域信息各自对应的生成难度。

在一些实例中，在第一确定模块12基于生成难度，确定图像控制信息中所包括的目标区域时，该第一确定模块12用于：将生成难度大于或等于预设阈值的区域信息，确定为图像控制信息中所包括的目标区域。

图10所示装置可以执行图1-图7所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图7所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图10所示图像生成装置的结构可实现为一电子设备，该电子设备可以是图像处理设备、服务器等各种设备。如图11所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，第一存储器22用于存储相对应电子设备执行上述图1-图7所示实施例中提供的图像生成方法的程序，第一处理器21被配置为用于执行第一存储器22中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器21执行时能够实现如下步骤：获取文本控制信息、图像控制信息和原始图像信息；将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域；基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

进一步的，第一处理器21还用于执行前述图1-图7所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种存储有计算机程序的计算机可读存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图7所示方法实施例中图像生成方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图1-图7所示方法实施例中图像生成方法中的步骤。

图12为本申请另一示例性实施例的一种图像生成装置的结构示意图；参考附图12所示，本实施例提供了一种图像生成装置，该图像生成装置可以执行上述图8所示的图像生成方法，具体的，该图像生成装置可以包括：

第二确定模块31，用于响应于调用图像生成请求，确定图像生成服务对应的处理资源；

第二处理模块32，用于利用处理资源执行如下步骤：获取文本控制信息、图像控制信息和原始图像信息；将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域；基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

图11所示装置可以执行图8所示实施例的方法，本实施例未详细描述的部分，可参考对图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图8所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图11所示图像生成装置的结构可实现为一电子设备，该电子设备可以是图像处理设备、服务器等各种设备。如图12所示，该电子设备可以包括：第二处理器41和第二存储器42。其中，第二存储器42用于存储相对应电子设备执行上述图8所示实施例中提供的图像生成方法的程序，第二处理器41被配置为用于执行第二存储器42中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第二处理器41执行时能够实现如下步骤：响应于调用图像生成请求，确定图像生成服务对应的处理资源；利用处理资源执行如下步骤：获取文本控制信息、图像控制信息和原始图像信息；将图像控制信息转换为第一特征序列，将原始图像信息转换为第二特征序列，第二特征序列中的至少部分为掩码序列，其中，掩码序列用于表征需要进行图像生成操作的图像区域；基于文本控制信息、第一特征序列和第二特征序列，生成至少一个第一图像，第一图像包括由文本控制信息、图像控制信息和原始图像信息进行融合处理后的图像。

进一步的，第二处理器41还用于执行前述图8所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第二通信接口43，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种存储有计算机程序的计算机可读存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图8所示方法实施例中图像生成方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图8所示方法实施例中图像生成方法中的步骤。

图14为本申请又一示例性实施例的一种图像生成装置的结构示意图；参考附图14所示，本实施例提供了一种图像生成装置，该图像生成装置可以执行上述图9所示的图像生成方法，具体的，该图像生成装置可以包括：

第三获取模块51，用于获取文本控制信息、服装图像控制信息和原始图像信息；

第三确定模块52，用于基于服装图像控制信息，确定至少一个服装关注区域；

第三处理模块53，用于基于文本控制信息、至少一个服装关注区域和原始图像信息，生成至少一个目标服装图像，目标服装图像中包括由所述文本控制信息、至少一个服装关注区域和原始图像信息进行融合处理后的图像。

图14所示装置可以执行图9所示实施例的方法，本实施例未详细描述的部分，可参考对图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图9所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图14所示图像生成装置的结构可实现为一电子设备，该电子设备可以是图像处理设备、服务器等各种设备。如图15所示，该电子设备可以包括：第三处理器61和第三存储器62。其中，第三存储器62用于存储相对应电子设备执行上述图9所示实施例中提供的图像生成方法的程序，第三处理器61被配置为用于执行第三存储器62中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第三处理器61执行时能够实现如下步骤：获取文本控制信息、服装图像控制信息和原始图像信息；基于服装图像控制信息，确定至少一个服装关注区域；基于文本控制信息、至少一个服装关注区域和原始图像信息，生成至少一个目标服装图像，目标服装图像中包括由所述文本控制信息、至少一个服装关注区域和原始图像信息进行融合处理后的图像。

进一步的，第三处理器61还用于执行前述图9所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第三通信接口63，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种存储有计算机程序的计算机可读存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图9所示方法实施例中图像生成方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图9所示方法实施例中图像生成方法中的步骤。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如601、602、603等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程多媒体数据计算设备的处理器以产生一个机器，使得通过计算机或其他可编程多媒体数据计算设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程多媒体数据计算设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程多媒体数据计算设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像生成系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述图像生成组件基于所述文本控制信息、所述第一特征序列和所述第二特征序列，生成至少一个第一图像，包括：

在所述第二特征序列中确定第一待预测掩码，所述第一待预测掩码为所述掩码序列的一部分；

基于所述文本控制信息和所述第一特征序列对所述第一待预测掩码进行预测，获得至少一个第一图像特征序列；

对所述至少一个第一图像特征序列进行解码处理，生成至少一个第一图像，所述第一图像所对应的掩码序列比例小于所述原始图像信息所对应的掩码序列比例。

3.根据权利要求2所述的系统，其特征在于，所述图像生成组件在所述第二特征序列中确定第一待预测掩码，包括：

获取用于限定所述第一待预测掩码的占比信息；

对所述第二特征序列中的掩码序列进行随机采样，获得与所述占比信息相对应的第一待预测掩码。

4.根据权利要求2所述的系统，其特征在于，

所述信息获取组件，用于在生成至少一个第一图像之后，获取所述至少一个第一图像各自对应的图像质量；

图像生成组件，用于基于所述至少一个第一图像各自对应的图像质量，在所述至少一个第一图像中确定一目标图像；基于文本控制信息和所述第一特征序列对所述目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像，所述第二图像所对应的掩码序列比例小于所述第一图像所对应的掩码序列比例。

5.根据权利要求4所述的系统，其特征在于，所述信息获取组件获取所述至少一个第一图像各自对应的图像质量，包括：

获取所述文本控制信息和图像控制信息与各个第一图像之间的关联度；

确定所述至少一个第一图像各自对应的真实度；

基于所述关联度和所述真实度，确定所述至少一个第一图像各自对应的图像质量。

6.根据权利要求4所述的系统，其特征在于，所述图像生成组件基于文本控制信息和所述第一特征序列对所述目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像，包括：

获取与所述目标图像相对应的第二待预测掩码，所述第二待预测掩码与第一待预测掩码不同；

基于所述文本控制信息和所述第一特征序列对所述第二待预测掩码进行预测，获得所述第二图像特征序列；

基于所述第二图像特征序列，生成至少一个第二图像。

7.根据权利要求4所述的系统，其特征在于，

所述图像生成组件，用于在生成至少一个第二图像之后，获取进行多次迭代预测之后所获得的多个图像集合，每个图像集合中包括至少一个第二图像；确定所述多个图像集合所对应的图像质量变化趋势；基于所述图像质量变化趋势，对所述目标图像的迭代预测操作进行控制。

8.根据权利要求4所述的系统，其特征在于，在生成至少一个第二图像之后，所述图像生成组件，用于：

获取所述第二图像的图像分辨率；

在所述图像分辨率小于设定分辨率时，则对所述第二图像进行分辨率调整，获得第三图像，所述第三图像的图像分辨率为设定分辨率。

9.根据权利要求8所述的系统，其特征在于，在获得第三图像之后，所述图像生成组件，用于：

获取所述第三图像相对应的置信度；

确定所述第三图像中置信度小于预设阈值的图像区域；

对所述图像区域进行预测，获得预测区域；

基于所述预测区域和所述第三图像，生成与所述第三图像相对应的第四图像。

10.一种图像生成方法，其特征在于，包括：

获取文本控制信息、图像控制信息和原始图像信息；

11.根据权利要求10所述的方法，其特征在于，基于所述文本控制信息、所述第一特征序列和所述第二特征序列，生成至少一个第一图像，包括：

12.根据权利要求11所述的方法，其特征在于，在所述第二特征序列中确定第一待预测掩码，包括：

获取用于限定所述第一待预测掩码的占比信息；

13.根据权利要求11所述的方法，其特征在于，在生成至少一个第一图像之后，所述方法还包括：

获取所述至少一个第一图像各自对应的图像质量；

基于所述至少一个第一图像各自对应的图像质量，在所述至少一个第一图像中确定一目标图像；

基于文本控制信息和所述第一特征序列对所述目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像，所述第二图像所对应的掩码序列比例小于所述第一图像所对应的掩码序列比例。

14.根据权利要求13所述的方法，其特征在于，获取所述至少一个第一图像各自对应的图像质量，包括：

确定所述至少一个第一图像各自对应的真实度；

15.根据权利要求13所述的方法，其特征在于，基于文本控制信息和所述第一特征序列对所述目标图像所对应的掩码序列进行迭代预测，生成至少一个第二图像，包括：

基于所述第二图像特征序列，生成至少一个第二图像。

16.根据权利要求13所述的方法，其特征在于，在生成至少一个第二图像之后，所述方法还包括：

获取进行多次迭代预测之后所获得的多个图像集合，每个图像集合中包括至少一个第二图像；

确定所述多个图像集合所对应的图像质量变化趋势；

基于所述图像质量变化趋势，对所述目标图像的迭代预测操作进行控制。

17.根据权利要求13所述的方法，其特征在于，在生成至少一个第二图像之后，所述方法还包括：

获取所述第二图像的图像分辨率；

18.根据权利要求17所述的方法，其特征在于，在获得第三图像之后，所述方法还包括：

获取所述第三图像相对应的置信度；

确定所述第三图像中置信度小于预设阈值的图像区域；

对所述图像区域进行预测，获得预测区域；

19.根据权利要求10-18中任意一项所述的方法，其特征在于，所述方法还包括：

获取与所述图像控制信息相对应的多个区域信息；

确定所述多个区域信息各自对应的生成难度，所述生成难度用于反映所述区域信息的样式新颖程度；

基于所述生成难度，确定所述图像控制信息中所包括的目标区域；

生成至少一个与所述目标区域相对应的第一图像。