CN113449135B

CN113449135B - 图像生成系统与方法

Info

Publication number: CN113449135B
Application number: CN202111015905.2A
Authority: CN
Inventors: 周慧玲; 薛金宝; 李智康; 刘杰; 白帅; 周畅; 杨红霞; 周靖人
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-19
Anticipated expiration: 2041-08-31
Also published as: US11714849B2; US20230068103A1; CN113449135A

Abstract

本申请实施例提供一种图像生成系统与方法。在本申请实施例中，在制造行业场景中，根据指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，自动捕捉制造行业指定对象品类的样式需求，生成样式描述文本，并结合基于文本预测的图像生成模型将样式描述文本转化为对象图像；进一步结合图文匹配模型对对象图像进行筛选，得到较高质量的对象图像。整个过程中，搭建了从样式描述文本挖掘、文本到图像的预测到图像质量评测的流程，为制造行业提供了自动化的对象图像生成能力，缩短了制造行业设计产出对象图像的周期，提高了对象图像的产出效率。

Description

图像生成系统与方法

技术领域

本申请涉及智能制造技术领域，尤其涉及一种图像生成系统与方法。

背景技术

对于服装行业的企划链路来说，从样式的规划到最终的生产上架，往往需要耗时半年甚至更长时间。一件需要在冬天生产的当季羽绒服，服装设计师基本在初夏时候就要开始进行款式设计和反复的打样修改。这样的生产设计模式效率较低，在瞬息万变的服装流行趋势下显得较为笨重。当然，目前这种生产设计模式并不限于服装行业，包括生活用品、家用电器等在内的多种制造行业均面临生产设计效率较低，无法满足快节奏的产品更新需求。

发明内容

本申请的多个方面提供一种图像生成系统与方法，用以缩短制造行业设计产出对象图像的周期，提高对象图像的产出效率。

本申请实施例提供一种图像生成系统，包括：文本挖掘组件，用于确定第一制造行业中需要生成样图的指定对象品类，根据与所述指定对象品类相关联的用户行为数据以及所述指定对象品类的对象描述信息，生成用于所述指定对象品类的样式描述文本，其中所述样式描述文本反映所述指定对象品类的样式需求；图像生成组件，用于将所述样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像；将所述多个初始对象图像与所述样式描述文本输入至第二图文匹配模型进行匹配，以得到匹配度符合阈值要求的至少一个候选对象图像。

本申请实施例还提供一种图像生成方法，包括：根据与第一制造行业中指定对象品类相关联的用户行为数据和所述指定对象品类的对象描述信息，生成用于所述指定对象品类的样式描述文本，所述样式描述文本反映所述指定对象品类的样式需求；将所述样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像；将所述多个初始对象图像与所述样式描述文本输入至第二图文匹配模型进行匹配，以得到匹配度符合阈值要求的至少一个候选对象图像。

在本申请实施例中，在制造行业场景中，根据指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，自动捕捉指定对象品类的样式需求，生成样式描述文本，并结合基于文本预测的第一图像生成模型将样式描述文本转化为对象图像；进一步结合第二图文匹配模型对对象图像进行筛选，得到较高质量的对象图像。整个过程中，搭建了从样式描述文本挖掘、文本到图像的预测到图像质量评测的流程，为制造行业提供了自动化的对象图像生成能力，缩短了制造行业设计产出对象图像的周期，提高了对象图像的产出效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种图像生成系统的结构示意图；

图2a为本申请示例性实施例提供的一种图像生成系统的内部架构图；

图2b为本申请示例性实施例提供的一种生成图像序列化模型和码本的过程图；

图2c为本申请示例性实施例提供的一种第一图像生成模型的示意图；

图3a为本申请示例性实施例提供的一种图像生成方法的流程示意图；

图3b为本申请示例性实施例提供的另一种图像生成方法的流程示意图；

图4为本申请示例性实施例提供的一种云服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有制造行业生产设计模式效率较低的问题，在本申请实施例中，在制造行业场景中，根据指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，自动捕捉指定对象品类的样式需求，生成样式描述文本，并结合基于文本预测的第一图像生成模型将样式描述文本转化为对象图像；进一步结合第二图文匹配模型对对象图像进行筛选，得到较高质量的对象图像。整个过程中，搭建了从样式描述文本挖掘、文本到图像的预测到图像质量评测的流程，为制造行业提供了自动化的对象图像生成能力，缩短了制造行业设计产出对象图像的周期，提高了对象图像的产出效率。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种图像生成系统的结构示意图。如图1所示，该系统100包括：图像生成组件101，以及与图像生成组件101网络连接的文本挖掘组件102。进一步可选地，如图1所示，该图像生成系统100还包括：与图像生成组件101网络连接的质量评测组件103。

在本实施例中，并不限定图像生成组件101、文本挖掘组件102和质量评测组件103的部署实现方式。可选地，这些组件实现为分布式部署，并且借助云计算系统实现整体系统功能。例如，图像生成组件101、文本挖掘组件102和质量评测组件103可以均部署在云端，例如部署在数据中心或中心云系统中。或者，图像生成组件101可以部署在云端，例如数据中心或中心云系统中，并实现为云服务器，以便借助于云上资源的优势运行各种生成对象图像的神经网络模型；相对于云端部署，文本挖掘组件102可以部署在各种电商平台和用户端的端侧，便于收集用户行为数据和对象描述信息；相应地，质量评测组件103部署在智造行业的计算环境内。无论部署在哪个位置，文本挖掘组件102可部署在台式电脑、笔记本电脑或智能手机等终端设备，也可以部署在常规服务器、云服务器或服务器阵列等服务端设备。质量评测组件103可部署在台式电脑、笔记本电脑或智能手机等各种带有显示屏幕的设备上。

本申请实施例提供的图像生成系统可应用于各种制造行业，制造行业泛指机械工业时代利用某种资源（物料、能源、设备、工具、资金、技术、信息和人力等），按照市场要求，通过制造过程，转化为可供人们使用和利用的大型工具、工业品与生活消费产品的行业，例如包括但不限于：食品、服装、烟草、家具、造纸、印刷、体育娱乐用品、医药或化工等各种制造行业。为便于描述和区分，在本申请实施例中，以图像生成系统为第一制造行业生成其所需的对象图像为例展开描述。其中，第一制造行业可以是任何依赖对象图像进行生产制造的行业，例如可以是但不限于：服装行业、印刷行业、生活用品行业、家居行业、电器行业或乘用车行业等等。尤其是，第一制造行业可以是支持用户直连制造（Customer-to-Manufacturer，C2M）的制造行业，采用本申请实施例提供的图像生成系统可以满足用户的个性化的定制需求，能够快速、高效、高质量的为用户生成符合其定制化需求的对象图像。

例如，在本申请实施例提供的图像生成系统应用于食品制造行业时，可以快速、高效地为食品制造行业生成食品样图，该食品样图包含食品的形状样式，例如小熊形状的饼干，或者小猪形状的糕点等。又例如，在本申请实施例提供的图像生成系统应用于服装制造行业时，可以快速、高效地为服装制造行业生成服装样式图，该服务样式图中包括服装的形状样式，例如可以是带抽绳和帽子的卫衣，或带泡泡袖的短款女衫等。

无论第一制造行业是哪种制造行业，第一制造行业所生产的对象通常是多种多样的，为了便于对对象进行合理管理和区分，对这些对象进行了品类划分，不同对象品类下的对象之间具有明显的差异性，这些差异性主要体现的对象的一些属性上。其中，第一制造行业所生产的对象可以是该制造行业中的成品或半成品，其中，当成品投入使用以后还可以称之为商品，例如可以是服装、车辆、家电等。在本申请实施例中，并不关注对对象进行品类划分，也不限定划分品类所依据的维度。在本实施例中，图像生成系统可以以第一制造行业中的对象品类为粒度生成各对象品类所需的对象图像，有利于减轻图像生成系统的处理负担，可保证生成具有较高精度的对象图像。

在本实施例的图像生成系统中，文本挖掘组件102一方面用于确定第一制造行业中需要生成对象图像的指定对象品类，另一方面负责生成用于指定对象品类的样式描述文本。对象图像是指包含对象样式的图像，基于对象图像可进行后续的建模、打版或其它生产流程。在本实施例中，并不限定文本挖掘组件102确定第一制造行业中需要生成对象图像的指定对象品类的实施方式。

可选地，文本挖掘组件102可以对第一制造行业的各个对象品类进行图像需求分析，根据分析结果识别哪些对象品类需要生成新的对象图像，将这些需要生成新对象图像的对象品类作为本申请实施例中的指定对象品类。例如，文本挖掘组件102可以跟踪第一制造行业中各对象品类下最后一次更新对象图像的时间和/或各对象品类下的对象流行趋势，在最后一次更新对象图像的时间与当前时间的时间间隔大于设定间隔阈值时和/或当前使用的对象图像与当下对象流行趋势不符合时，说明需要针对该对象品类更新对象图像，于是将该对象品类作为指定对象品类。

或者，

可选地，文本挖掘组件102也可以接收来自于第一制造行业的管理端的对象图像生成指令，从对象图像生成指令中解析出需要生成对象图像的对象品类，作为本申请实施例中的指定对象品类。在该可选实施例中，需要为哪些对象品类生成新的对象图像由第一制造行业的管理端或管理人员根据制造需求而定，例如对于比较热门或流行的对象品类，为了保证该对象品类下的新对象（例如商品）符合当下趋势需求，管理端可以向本申请实施例提供的图像生成系统发送对象图像生成指令，以请求为该对象品类生成符合当下趋势的对象图像。又例如，对于比较冷门或用户流失较为严重的对象品类，为了帮助该对象品类进行用户召回，管理端可以向本申请实施例提供的图像生成系统发送对象图像生成指令，以请求为该对象品类生成用户感兴趣或比较符合用户需求的对象图像。

在确定需要生成对象图像的指定对象品类的情况下，文本挖掘组件102可发挥其文本挖掘能力，生成用于指定对象品类的样式描述文本。样式描述文本是一种可反映指定对象品类的样式需求的文本信息，可选地，若样式描述文本反映指定对象品类的流行趋势，则样式描述文本可以简称为趋势文本。样式描述文本可通过文本和数字来描述对指定对象品类的样式需求。例如，以服装制造行业为例，在一种场景中，针对女士雪纺衫这一品类，对应的样式描述文本中可以包含但不限于：“泡泡袖”、“荷叶边”、“娃娃领”或“蕾丝”等文字，通过这些文字描述对女士雪纺衫的样式需求；在另一种场景中，针对女士斜挎包这一品类，对应的样式描述文本中可以包含但不限于：“流苏”、“亮片”、“格子”或“链条”等文字，通过这些文字描述对女士斜挎包的样式需求。

在本实施例中，文本挖掘组件102一方面可获取指定对象品类相关联的用户行为数据，另一方面还可以获取指定对象品类的对象描述信息；进而，根据指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，生成用于指定对象品类的样式描述文本。其中，用户的行为数据是一种用户在各种网络平台（以电商平台为主）上针对指定对象品类下的各种对象产生的行为数据，包含但不限于：用户在电商平台上对各种对象（如产品或商品）进行浏览、加购物车、收藏、下单或评论等各种行为数据，也包括在一些社交平台上针对各对象的推荐、问答等行为数据等。具体地，文本挖掘组件102可以从各种网络平台（以电商平台为主）上获取指定对象品类相关联的各种用户行为数据，这些用户行为数据可在一定程度上反映用户感兴趣的对象属性和品类描述。

在一可选实施例中，可以从属于指定对象品类的对象中选择部分对象，将被选择的部分对象称为选定对象，利用选定对象的描述信息来表征指定对象品类的对象描述信息；在本实施例中，并不限定文本挖掘组件102从属于指定对象品类的对象中选择选定对象的实施方式，例如，可以根据对象价格，选择价格在指定价格区间的对象，或者，可以根据制造商，选择特定制造商生产的对象，或者也可以根据当下流行趋势，选择比较符合流行趋势的对象，例如将指定对象品类在最近时段内出现的新对象作为选定对象，新对象一定程度上可以反映指定对象品类的当前流行趋势。在本实施例中，选定对象的描述信息可以包含但不限于：对象的品牌、尺寸、大小、颜色或样式等各种基本属性信息，还可以包括选定对象的上新数量、各种销售数据等能够反映选定对象受欢迎度的一些属性信息。

接续于上述可选实施例，在将指定对象品类在最近时段内出现的新对象作为选定对象的情况下，文本挖掘组件102在根据与指定对象品类相关联的用户行为数据以及指定对象品类的对象描述信息生成用于指定对象品类的样式描述文本时，可对与指定对象品类相关联的用户行为数据进行文本挖掘，从中挖掘出用户感兴趣的对象属性和品类描述；以及对指定对象品类在最近时段内出现的新对象的描述信息进行文本挖掘，得到新对象的对象属性和品类描述，其中，选定对象在一定程度上可体现该指定对象品类的流行趋势。其中，在对用户行为数据或选定对象的描述信息进行文本挖掘时，可以采用词频-逆向文件频率（Term Frequency–Inverse Document Frequency，TF-IDF）算法。其中，采用TF-IDF算法对用户行为数据进行文本挖掘的过程包括：对采集到的用户行为数据进行分词，得到分词集合；对于分词集合中的每个分词，统计该分词在用户行为数据中出现的词频TF，并统计该分词在语料库中出现的逆向文件频率IDF，对TF和IDF进行加权求和，得到该分词的区分度；若该分词的区分度大于设定的区分度阈值，则将该分词所表示的对象属性或品类描述作为用户感兴趣的对象属性或品类描述。其中，采用TF-IDF算法对选定对象的描述信息进行文本挖掘的过程相似，在此不再赘述。

进一步，在获取用户感兴趣的对象属性和品类描述和新对象的对象属性和品类描述之后，可根据用户感兴趣的对象属性和品类描述，以及新商品的对象属性和品类描述，从第一制造行业的品类-属性-属性值（Category-Property-Value，CPV）知识体系中获取品类属性数据；根据所获取的品类属性数据生成样式描述文本。其中，CPV知识体系是预先构建的，该知识体系中可以包含但不限于：对象所属的品类信息、对象在多个维度上的属性信息以及属性值等较为完整的对象属性数据。在本实施例中，根据用户感兴趣的对象属性和品类描述以及新商品的对象属性和品类描述可以从CPV知识体系中获取用户感兴趣且比较流行的品类属性数据，这些品类属性数据中至少包括商品样式属性，这些品类属性数据对应的对象比较受欢迎。

在本实施例中，文本挖掘组件102生成用于指定对象品类的样式描述文本之后，可以将用于指定对象品类的样式描述文本提供给图像生成组件101。图像生成组件101用于将样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像。其中，基于文本预测的第一图像生成模型是一种可以根据样式描述文本生成与该样式描述文本对应的对象图像的多模态神经网络模型，在本实施例中，并不对基于文本预测的第一图像生成模型的模型结构做限定，任何能够基于文本预测生成对象图像的神经网络模型均适用于本申请实施例。本实施例的第一图像生成模型实现了从“文本”到“图像”这两种模态的转换。可选地，本实施例可以采用但不限于：超大规模中文预训练（Multi-Modality to Multi-Modality Multitask Mega-transformer，M6）模型作为本实施例使用的基于文本预测的第一图像生成模型。M6模型是一种超大规模多模态的语言预训练模型，是具有通用性的人工智能大模型，具有万亿甚至千亿模型参数，在文本生成图像方面，可以生成分辨率为1024*1024甚至更高的高清图像。

在本申请实施例中，考虑到基于文本预测的第一图像生成模型所生成的多个初始对象图像中可能会出现一些不合理的情况，例如，初始对象图像不符合样式描述文本的描述，或者初始对象图像中存在残缺、阴影或模糊等。为了获得较为优质的对象图像，在本申请实施例中，在生成多个初始对象图像之后，图像生成组件101可以将多个初始对象图像与样式描述文本输入至第二图文匹配模型进行匹配，以得到图文匹配度符合阈值要求的至少一个候选对象图像。其中，第二图文匹配模型主要用于判断图文相关性，即判断初始对象图像是否符合样式描述文本的描述。在本申请实施例中，并不限定第二图文匹配模型的模型结构，凡是能够实现图文相关性匹配的神经网络模型均适用于本申请实施例，例如，第二图文匹配模型可以是但不限于：对比文本-图像预训练模型（Contrastive Language-ImagePre-Training，CLIP）等。

进一步可选地，如图1所示，本实施例提供的图像生成系统100还包括：质量评测组件103。质量评测组件103与图像生成组件101网络连接，用于接收图像生成组件101发送来的至少一个候选对象图像，并将至少一个候选对象图像展示给评估系统，以供评估系统从至少一个候选对象图像中选择符合生产设计需求的目标对象图像；以及响应于评估系统的选择，获取被选中的目标对象图像，并将目标对象图像用于后续制造环节。

在一可选实施例中，评估系统可以由评估人员组成，在质量评测组件103将至少一个候选对象图像展示在其屏幕上之后，评估人员可以凭借其经验判断这些候选对象图像是否符合生产设计需求，进而基于判断结果从至少一个候选对象图像中选择符合生产设计需求的目标对象图像，目标对象图像的数量可以是一个，也可以是多个，例如，2个，3个或5个等。可选地，评估人员可以是第一制造行业中的设计人员，或设计审核人员，但不限于此。例如，在服装制造行业，服装设计师可以根据经验，从设计的角度选出符合趋势和设计理念的目标对象图像，之后，该目标对象图像可进入打版和建模环节，直至最后进入服装生产线上完成服装生产为止。进一步可选地，评估人员还可以通过质量评测组件103对候选对象图像进行质量打分；质量评测组件103还可以获取设计人员的打分结果，根据打分结果对候选对象图像进行排序或进一步筛选。可选地，评估人员可以直观判断候选对象图像是否与当下指定对象品类的样式需求匹配，根据匹配度给候选对象图像进行质量打分。或者，质量评测组件103在输出候选对象图像时，还可以同时输出候选对象图像对应的样式描述文本；评估人员可以凭借经验判断这些候选对象图像与样式描述文本的匹配度，根据候选对象图像与样式描述文本的匹配度，对候选对象图像进行质量打分。

在另一可选实施例中，本实施例的评估系统也可以由图像评估模型组成，在此之前，可以预先利用指定对象品类的潮流对象的图像作为样本集合，利用该样本集合进行模型训练，得到一个可以输出样本集合中更加符合潮流趋势的对象图像。可选地，该图像评估模型可以是一个分类器模型，例如可以包括卷积层、池化层、多层感知机实现，卷积层用于对输入的样本图像进行卷积处理，得到第一特征信息；池化层用于对第一特征信息进行下采样，得到第二特征信息，减少数据量；将第二特征信息输入多层感知机，在多层感知机内，通过激活函数对第二特征信息进行变换，根据变换结果得到对样本图像的分类结果，即样本图像或者是样本集合中更加符合潮流趋势的对象图像，或者不是样本集合中更加符合潮流趋势的对象图像。在训练出图像评估模型之后，可以将至少一个候选对象图像输入图像评估模型中，由图像评估模型对至少一个候选对象图像进行分类处理，得到更加符合潮流趋势的候选对象图像作为目标对象图像。

在本申请实施例中，在第一制造行业场景中，根据与指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，自动捕捉指定对象品类的样式需求，生成样式描述文本，并结合基于文本预测的第一图像生成模型将样式描述文本转化为对象图像；进一步结合第二图文匹配模型对对象图像进行筛选，得到较高质量的对象图像。整个过程中，搭建了从样式描述文本挖掘、文本到图像的预测到图像质量评测的流程，为第一制造行业提供了自动化的对象图像生成能力，缩短了第一制造行业设计产出对象图像的周期，提高了对象图像的产出效率。

在本申请一可选实施例中，图像生成组件101基于第一图像生成模型采用一种两阶段的图像生成方式，根据样式描述文本生成多个初始对象图像。第一阶段A1为预先训练第一图像生成模型及其使用的码本（codebook）的阶段；关于训练第一图像生成模型和码本的过程可参见后续实施例，在此暂不详述。第二阶段A2为图像生成组件101使用第一图像生成模型及码本的阶段，该图像生成阶段进一步又包括从样式描述文本到图像序列，再从图像序列重建出初始对象图像的两个阶段，而并非直接从样式描述文本到初始对象图像。具体地：将样式描述文本对应的文本序列输入至该基于文本预测的第一图像生成模型中，基于预先训练出的码本，根据该文本序列生成多个图像序列；对该多个图像序列分别进行图像重建，以得到多个初始对象图像。其中，码本是一种可以体现图像序列与图像像素之间映射关系的字典，使得能够利用图像序列去表达图像，是对图像序列的离散化文本表示。具体地，码本中包括多个码字（code），并且每个码字对应一个索引号，这些码字是对图像特征进行离散化处理的结果，可以体现图像特征，一张图像经特征提取和离散化处理可被映射为一系列码字的组合，这些码字对应的索引号可形成该图像对应的图像序列。在对图像进行离散化的过程中，可以对图像进行分块处理后，例如，一张大小为256*256的图像，分块成16个大小为16*16局部图，若对16个局部图中的每一个都提取一个码字，则该大小为256*256的图像可以映射成（256/16）*（256/16）=16*16=256个码字对应的图像序列，该图像序列包括这256个码字对应的索引号。

在一可选实施例中，本实施例的第一图像生成模型采用深度自注意力变换网络（Transformer）结构的编码器-解码器结构，且对编码器和解码器的实现结构不做限定。例如，在图2c所示的第一图像生成模型的实现结构中，编码器可以包括多层，分别是多头注意力（Multi-Head Attention）层、Add&Norm层、前向反馈（Feed Forward）层以及另一个Add&Norm层；其中，Add表示残差连接（Residual Connection），用于防止网络退化；Norm表示层标准化（Layer Normalization），用于对每一层的激活值进行归一化；多头注意力层包括多个自注意力机制（Self-Attention）层。同理，解码器也可以包含多层，分别是多头自注意力（Multi-Head Self-Attention）层、多头交叉注意力（Multi-Head Cross-Attention）层、Feed Forward层以及位于前面每一层上面的Add&Norm层；其中，在Multi-Head Self-Attention层中使用了Masked（掩码）操作。图2c所示仅为第一图像生成模型的一种示例，并不限于此。

进一步，在本实施例的第一图像生成模型中，跨模态信息在编码器侧实现交互，实现跨模态表征理解，即实现文本特征到图像特征的转换；而解码器则负责学习自然语言生成，用于实现图像特征到图像序列的转换。具体而言，在训练过程中，编码器接收来自图像侧的残差网络（ResNet）特征序列和来自文本侧的编码（Embedding），结合常用的位置编码（positional encoding）和分割编码（segment encoding）；进而，编码器利用注意力机制双向对上述几种信息建立关联并学习基于上下文的深度表征；对解码器而言，则利用注意力机制关联来自编码器的高层表征，并通过单向的自注意力学习自回归形式的自然语言生成。

为了便于区分和描述，将第一图像生成模型中编码器称为第一编码器，将第一图像生成模型中解码器称为第一解码器。第一编码器主要用于对文本序列进行编码得到图像特征，第一解码器主要用于对图像特征进行解码得到图像序列。基于上述，图像生成组件101将文本序列输入至第一编码器中，对文本序列进行编码得到第一图像特征；将第一图像特征输入至第一解码器中，基于码本对第一图像特征分别进行解码得到多个图像序列，如图2a所示。

在一可选实施例中，基于文本预测的第一图像生成模型可以输出长度为256的图像序列，长度为256的图像序列在图像重建后可以得到分辨率为256*256的对象图像。除此之外，若实际应用中要求对象图像的分辨率为800*800，那么对长度为256的图像序列进行图像重建得到的初始对象图像，无法满足实际的展示需求。基于此，在本实施例中，对第一图像生成模型生成的图像序列的长度进行了拓展，即该图像生成模型可以支持生成更大长度的图像序列，之后，对更大长度的图像序列进行图像重建，以得到满足展示需求的多个初始对象图像。可选地，图像生成模型所输出的图像序列的长度可以大于或等于4096，对长度大于或等于4096的图像序列进行图像重建之后，可以得到分辨率为800*800或1024*1024的高清图像。

进一步，因为需要生成的图像序列的长度增大了，如果按照传统的Transformer处理方式，在计算图像序列中的当前码字时需要与其之前所有码字做相关计算，这会增大图像生成模型的计算量，影响第一图像生成模型生成图像序列的效率和质量。基于此，图像生成组件101在基于码本对第一图像特征分别进行解码得到多个图像序列过程中，可以在第一解码器中，采用稀疏注意力（sparse attention）机制，基于码本对第一图像特征进行解码得到多个图像序列。其中，稀疏注意力机制的基本思想是：减少关联性的计算，即计算图像序列中的当前码字时，对该当前码字之前的部分码字做相关计算，而不是对当前码字之前的全部码字做相关计算。例如，在计算第一图像序列中的第j个码字时，与该第j个码字之前的k个码字做相关计算，其中，j、k为正整数，该第j个码字之前一共包括m个码字，m是正整数且m＞k。

在一可选实施例中，上述第一阶段中对码本的训练是基于对图像序列化模型的训练得到的。该图像序列化模型一方面可以实现图像序列化，即基于图像生成图像序列的过程；另一方面可以实现图像重建，即基于图像序列进行图像重建得到图像的过程。其中，图像序列化模型的结构并不限定，凡是可以实现图像序列化以及基于图像序列进行图像重建的模型均适用于本申请实施例。在本实施例中，以图像序列化模型采用Transformer结构的编码器-解码器结构实现为例进行说明，但并不限于此。编码器可以包括多层，例如，残差连接（Residual Connection）层、下采样层或前向反馈（Feed Forward）层等。同理，解码器也可以包含多层，例如，残差连接（Residual Connection）层、上采样层、激励层（如softmax层）或前向反馈（Feed Forward）层等。为了便于区分和描述，将图像序列化模型中的编码器称为第二编码器，将图像序列化模型中的解码器称为第二解码器。其中，第二编码器用于实现图像序列化，第二解码器用于基于图像序列进行图像重建。基于上述，图像生成组件101在对多个图像序列分别进行图像重建，以得到多个初始对象图像的过程中，可以将多个图像序列输入至图像序列化模型中，由第二解码器对多个图像序列分别进行图像重建，以得到多个初始对象图像，如图2a所示。在该实现方式中，由两个神经网络模型（即图像生成模型和图像序列化模型）中的编码器和解码器相互配合，实现从样式描述文本到初始对象图像的生成过程，具体为：将样式描述文本对应的文本序列输入至第一图像生成模型中的第一编码器，由第一编码器对文本序列进行编码得到第一图像特征；第一图像特征被输入至第一图像生成模型中的第一解码器，由第一解码器基于预先训练出来的码本对第一图像特征进行解码得到多个图像序列；进一步，多个图像序列被送入图像序列化模型中的第二解码器，由第二解码器对多个图像序列分别进行图像重建，以得到多个初始对象图像。该实现方式不仅跨神经网络模型，而且处理过程中的信息模态是从文本序列到图像序列再到图像，而并非直接从文本序列到图像，有利于提高所生成的图像的精度，也可以简化单个神经网络模型的复杂度。

在本申请上述或下述实施例中，在上述第一阶段A1中，包括对码本进行训练的过程，也就是同步训练图像序列化模型的过程，可以认为图像序列化模型是训练码本得到的神经网络模型。由于码本需要具有通用性或普适性，因此，在训练码本以及图像序列化模型的过程中，可采集跨领域的多个原始样本图像；采用跨领域的原始样本图像进行模型训练得到图像序列化模型及码本。相应地，在上述第一阶段A1中，还包括训练第一图像生成模型的过程。其中，与码本相比，第一图像生成模型需要能够有针对性地生成对象图像，故在对第一图像生成模型进行训练时，可以将第一制造行业中指定对象品类下的图文样本对作为训练样本对图像生成模型进行训练。为了提高第一图像生成模型的精度，可以采用大量训练样本，例如可以采用但不限于1000万的样本数量。

其中，在训练图像序列化模型和码本的过程中，可以采用矢量化的对抗生成网络（Vector Quantization Generative Adversarial Network，VQGAN）以及向量离散化（vector quantization）的方式，利用多个原始样本图像进行模型训练，得到一个离散化的码本和图像序列化模型。其中，从模型架构的角度来看，VQGAN采用编码器-量化器-解码器的模型架构，其目标是训练出一张码本，通过该码本可以将一张二维图像通过图像序列化模型中的编码器和量化器压缩为一维的图像序列，与此同时还可以通过图像序列化模型中的解码器将该图像序列尽可能的恢复为原来的二维图像。例如，一张分辨率为H*W（H为图像高度，W为图像宽度）的原始RGB图像I，首先经过编码器后得到N倍下采样的图像特征(H/N)*(W/N)*C，C为特征维度；之后通过量化器变成长度为(H/N)*(W/N)的离散序列；最后通过解码器，还原为H*W的图像J。编码器是一个卷积神经网络，由残差网络和下采样模块组成；解码器与编码器的结构类似，只需对应的将下采样模块替换为上采样模块。量化器模块内部为一个编码字典，即码本，对于输入的特征，会用码本中最接近的码字进行替代。为了提高模型的准确度，在采用VQGAN进行模型训练过程中采用三种类型的损失函数，第一种是逐像素的最小均方误差函数，用于约束图像的局部一致性，第二种是感知损失函数，使用了计算机视觉组（Visual Geometry Group，VGG）网络的中间层特征用于约束图像的语义一致性，第三种是对抗损失函数，这里使用了的额外的图像块判别网络小块取卷积神经网络（PatchCNN）去进一步提升生成图像的清晰度。

从模型训练原理的角度来看，VQGAN包括生成模型（Generative Model）和判别模型（Discriminative Model），在模型训练过程中，生成模型主要学习真实图像分布，即原始样本图像分布，从而让自身生成的图像更加真实，使得判别模型无法分辨数据是否是真实数据。判别模型用于判断接收到的图像是否为真实世界的图像，即输出数据为真实图像而不是生成图像的概率。判别模型可以将模型训练的损失作为反馈提供给生成模型，利用该反馈提升生成模型生成近似于真实图像的能力。整个过程可以看作是生成模型和判别模型的博弈，经过不断的交替迭代，最终使两个网络模型达到一个动态平衡，即判别模型无法判断生成模型给到的数据是否为真实图像，判别概率约为0.5，近似于随机猜测。

在一可选实施例中，可以采用一个阶段完成图像序列化模型的训练过程，在该过程中直接对图像序列化模型的生成模型和判决模块进行对抗训练，得到图像序列化模型和码本。在本实施例中，对抗训练与非对抗训练是一个相对的概念，对抗训练是指生成模型和判别模型构成的相互制衡的训练过程，具体地，生成模型尽量生成与原始样本图像相似的观测样本图像去欺骗判别模型，而判别模型尽量把生成模型生成的观测样本图像和原始样本图像区分开来。相应地，非对抗训练是指不采用对抗训练相互制衡的方式，而是基于多个原始样本图像对初始模型进行卷积、池化或采样等常规操作的训练过程。

在本申请另一可选实施例中，相比于传统的矢量量化变分自动编码（VectorQuantised Variational AutoEncoder，VQVAE）离散技术，在本实施例中，采用VQGAN技术，利用多个原始样本图像进行模型训练，得到图像序列化模型以及码本，通过基于块的生成对抗网络优化（patch-based Generative Adversarial Network optimization）的方式，可以得到更清晰的重建图像，例如初始对象图像，但是重建图像也会有细节部分的失真（主要由于图像序列化模型训练过程中判别器的迭代产生）。考虑到码本生成过程中迭代较难，且生成模型生成观测样本图像的任务比判别模型的判别任务更难。基于此，可采用两个阶段完成的图像序列化模型的训练过程，得到图像序列化模型和码本。其中，第一阶段是不开启判别模型的非对抗训练阶段（即先利用生成模型做数轮迭代），第二阶段是开启判别模型的对抗训练阶段（在数轮迭代完成后开启判别模型进行对抗训练）。数轮迭代可以是设定的迭代轮次，例如3000次或10000次等，当迭代轮次到达后，再开启判别模型进行对抗训练；或者，也可以根据生成模型的损失函数来确定数轮迭代的次数，例如，当损失函数的值小于设定阈值时，再开启判别模型进行对抗训练。

具体地，将多个原始样本图像分为第一样本组和第二样本组，第一样本组用于不开启判别模型的非对抗训练阶段，第二样本组用于开启判别模型的对抗训练阶段。可选地，第一样本组的样本数量可以少于第二样本组样本数量，例如，在多个原始样本图像为300万的情况下，第一样本组的样本数量可以为100万，第二样本组的样本数量可以为200万，但不限于此处列举的具体数量。下面分两个阶段对图像序列化模型进行训练，图像序列化模型训练过程的两个阶段相互独立。

第一阶段B1：利用第一样本组中的原始样本图像对初始模型进行非对抗训练，得到中间态的图像序列化模型，如图2b所示。其中，初始模型是指初始的图像序列化模型，该模型包括初始的第二编码器和初始的第二解码器；其中，初始的第二编码器用于对第一样本组中的原始样本图像进行特征提取以得到图像特征，并利用初始的码本对该图像特征进行离散化得到图像序列；图像序列包括图像特征离散化后对应码字的索引号；图像序列经初始的第二解码器进行解码得到恢复的图像；进一步，根据恢复的图像与原始样本图像之间的差异计算第一阶段B1的损失函数，例如可以是两张图像的残差，若损失函数不满足要求，继续迭代直至损失函数满足设定要求，得到较高质量的图像序列化模型，即中间态的图像序列化模型以及中间态的码本。中间态的图像序列化模型包括中间态的第二编码器和中间态的第二解码器；在得到中间态的图像序列化模型之后，进入第二阶段B2的模型训练过程。其中，第一阶段B1的训练过程即为不开启判别模型单独利用生成模型（即第二解码器）进行非对抗训练的过程。

第二阶段B2：采用矢量化的对抗生成网络，利用第二样本组中的原始样本图像对中间态的图像序列化模型进行对抗训练，得到图像序列化模型以及码本，如图2b所示。如图2b所示，在第二阶段B2中，可以将中间态的第二解码器当作VQGAN中的生成模型，结合VQGAN中的判别模型进行对抗训练，最终得到图像序列化模型以及码本。在第二阶段B2中，中间态的第二编码器用于对第二样本组中的原始样本图像进行特征提取以得到图像特征，并利用中间态的码本对该图像特征进行离散化得到图像序列；图像序列包括图像特征离散化后对应码字的索引号；图像序列经中间态的第二解码器进行解码得到恢复的图像；进一步，将恢复的图像送入判别网络进行真伪判断；若判别网络能够识别出该图像是生成的，而非真实图像，则继续迭代直至判别网络将第二解码器恢复的图像误认为是真实图像为止，此时得到最终的图像序列化模型及最终的码本。其中，第二阶段B2的训练过程即为开启判别模型进行对抗训练的过程。

在本实施例中，利用经过上述两个阶段的模型训练得到的图像序列化模型，生成模型生成的观测样本图像在峰值信噪比（Peak Signal to Noise Ratio，PSNR）、结构相似性（Structural SIMilarity，SSIM）、弗雷歇起始距离得分（Frechet Inception Distancescore，FID）以及起始分数（Inception Score，IS）等离线指标上均优于VQVAE，为后续基于码本进行图像重建的过程奠定了较好的基础。其中，PSNR基于观测样本图像与原始样本图像对应像素点间的误差计算得到的，PSNR值越高表示观测样本图像的图像质量越好；SSIM分别从亮度、对比度和结构三方面度量观测样本图像与原始样本图像的相似性；FID从观测样本图像与原始样本图像的计算机视觉特征来衡量图像之间的相似度，主要是计算原始样本图像和观测样本图像的特征向量之间的距离；IS主要是对观测样本图像的多样性和清晰度进行考量。

无论采用上述何种训练方式，其中，得到的码本如图2b所示，该码本包括索引号和码字；在模型训练过程中，码本会不断进行更新，最终得到具有通用性和普适性的码本。例如，在图2b中，图像中“狗的眼睛”为图像特征C1，图像特征C1对应的码字为“D1”，码字“D1”对应的索引号为“1”；图像中“狗的鼻子”为图像特征C2，图像特征C2对应的码字为“D2”，码字“D2”对应的索引号为“N-1”N为正整数。

在本申请上述或下述实施例中，在对多个初始对象图像进行匹配之前，预先训练第二图文匹配模型。其中，第二训练图文匹配模型的过程包括：将由对象图像和样式描述文本组成的图文匹配对作为训练样本，以同一语义空间作为约束，通过同一语义空间对图文匹配对分别进行特征编码，得到图像特征和文本特征，在同一语义空间中，图像特征和文本特征之间可以计算匹配度，采用大批样本数量（large batchsize）训练和对比学习（contrastive learning）的方法训练得到图文匹配模型。基于此，图像生成组件101将多个初始对象图像与样式描述文本输入至图文匹配模型进行匹配，以得到匹配度符合阈值要求的至少一个候选对象图像，具体包括：将多个初始对象图像和样式描述文本输入至图文匹配模型中，对多个初始对象图像和样式描述文本分别进行特征编码并映射到同一语义空间，得到多个第二图像特征和文本特征。其中，在同一语义空间中，第二图像特征和文本特征可计算匹配度，则可根据多个第二图像特征与文本特征之间的匹配度，从多个初始对象图像中选择匹配度大于阈值的至少一个初始对象图像作为候选对象图像。

其中，图文匹配模型的一种实现结构如图2a所示，包括：图像编码（imageencoder）模块、文本编码（text encoder）模块以及匹配模块；该实现结构的图文匹配过程包括：将初始对象图像输入至图像编码模块对初始对象图像进行图像编码，得到第二图像特征，将样式描述文本输入至文本编码模块对样式描述文本进行文本编码，得到文本特征，第二图像特征和文本特征位于同一语义空间，接着对第二图像特征和文本特征输入至匹配模块，得到第二图像特征与文本特征之间的匹配度，进而可以从多个初始对象图像中选择匹配度大于阈值的至少一个初始对象图像作为候选对象图像。

在本申请实施例中，除了提供一种图像生成系统之外，还提供一种图像生成方法，可为各种制造行业生成生产制造过程中所需的对象图像，如图3a所示，该方法包括：

301、根据与第一制造行业中指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，生成用于指定对象品类的样式描述文本，样式描述文本反映指定对象品类的样式需求；

302、将样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像；

303、将多个初始对象图像与样式描述文本输入至第二图文匹配模型进行匹配，以得到匹配度符合阈值要求的至少一个候选对象图像。

进一步，如图3b所示，在本申请实施例提供的另一种图像生成方法中，在步骤303之后，还包括：

304、将至少一个候选对象图像展示给评估系统，以及响应于评估系统的选择，获取被选中的目标对象图像，并将目标对象图像用于后续制造环节。

在一可选实施例中，将样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像，包括：将样式描述文本对应的文本序列输入至第一图像生成模型中，基于预先训练出的码本，根据文本序列生成多个图像序列，所述码本表示图像序列的离散化文本表示；对多个图像序列分别进行图像重建，以得到多个初始对象图像。

在一可选实施例中，基于预先训练出的码本，根据文本序列生成多个图像序列，包括：将文本序列输入至第一图像生成模型的编码器，对文本序列进行编码得到第一图像特征；将第一图像特征输入至第一图像生成模型的解码器，基于码本对第一图像特征分别进行解码得到多个图像序列。

在一可选实施例中，基于码本对第一图像特征分别进行解码得到多个图像序列，包括：在第一图像生成模型的解码器中，采用稀疏注意力机制，基于码本对第一图像特征进行解码得到多个图像序列。

在一可选实施例中，每个图像序列的长度大于或等于4096；相应地，对长度大于或等于4096的图像序列进行图像重建，可以得到分辨率为800*800甚至1024*1024的高清初始对象图像。

在一可选实施例中，对多个图像序列分别进行图像重建，以得到多个初始对象图像，包括：将多个图像序列输入至图像序列化模型中，由图像序列化模型中的解码器对多个图像序列分别进行图像重建，以得到多个初始对象图像；其中，图像序列化模型采用编码器-解码器结构，图像序列化模型是训练码本得到的神经网络模型。

在一可选实施例中，本申请实施例提供的方法还包括：采集跨领域的多个原始样本图像；采用矢量化的对抗生成网络，利用多个原始样本图像进行模型训练，得到图像序列化模型以及码本。

在一可选实施例中，多个原始样本图像包括第一样本组和第二样本组，则采用矢量化的对抗生成网络，利用多个原始样本图像进行模型训练，得到图像序列化模型以及码本，包括：利用第一样本组中的原始样本图像对初始模型进行非对抗训练，得到中间态的图像序列化模型；采用矢量化的对抗生成网络，利用第二样本组中的原始样本图像对中间态的图像序列化模型进行对抗训练，得到图像序列化模型以及码本。

在一可选实施例中，将多个初始对象图像与样式描述文本输入至第二图文匹配模型进行匹配，得到匹配度符合阈值要求的至少一个候选对象图像，包括：将多个初始对象图像和样式描述文本输入至第二图文匹配模型中，对多个初始对象图像和样式描述文本分别进行特征编码并映射到同一语义空间，得到多个第二图像特征和文本特征；根据多个第二图像特征与文本特征之间的匹配度，从多个初始对象图像中选择对应匹配度大于阈值的至少一个初始对象图像作为候选对象图像。

在一可选实施例中，根据与第一制造行业中指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，生成用于指定对象品类的样式描述文本，包括：对与指定对象品类相关联的用户行为数据进行文本挖掘，得到用户感兴趣的对象属性和品类描述；对指定对象品类在最近时段内出现的新对象的描述信息进行文本挖掘，得到新对象的对象属性和品类描述；根据用户感兴趣的对象属性和品类描述，以及新对象的对象属性和品类描述，从第一制造行业的品类-属性-属性值CPV知识体系中获取品类属性数据，所述品类属性数据中至少包括商品样式属性；根据所获取的品类属性数据生成样式描述文本。

在一可选实施例中，第一制造行业为服装行业、印刷行业、生活用品行业、家居行业、电器行业或乘用车行业。

本申请实施例提供的图像生成方法，在制造行业场景中，根据与指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，自动捕捉指定对象品类的样式需求，生成样式描述文本，并结合基于文本预测的第一图像生成模型将样式描述文本转化为对象图像；进一步结合第二图文匹配模型对对象图像进行筛选，得到较高质量的对象图像。整个过程中，搭建了从样式描述文本挖掘、文本到图像的预测到图像质量评测的流程，为制造行业提供了自动化的对象图像生成能力，缩短了制造行业设计产出对象图像的周期，提高了对象图像的产出效率。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤301至步骤303的执行主体可以为设备A；又比如，步骤301和302的执行主体可以为设备A，步骤303的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如301、302等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图4为本申请示例性实施例提供的一种云服务器的结构示意图。该云服务器用于运行基于文本预测的第一图像生成模型以及第二图文匹配模型，用于根据样式描述文本生成对应的对象图像。如图4所示，该云服务器包括：存储器44和处理器45。

存储器44，用于存储计算机程序，并可被配置为存储其它各种数据以支持在云服务器上的操作。该存储器44可以是对象存储(Object Storage Service，OSS)。

存储器44可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器45，与存储器44耦合，用于执行存储器44中的计算机程序，以用于：获取样式描述文本，样式描述文本反映第一制造行业中指定对象品类的样式需求；将样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像；将多个初始对象图像与样式描述文本输入至第二图文匹配模型进行匹配，以得到匹配度符合阈值要求的至少一个候选对象图像。

进一步可选地，处理器45还可以将至少一个候选对象图像发送至质量评测组件，以供质量评测组件将至少一个候选对象图像展示给评估系统，以及响应于评估系统的选择，获取被选中的目标对象图像，并将目标对象图像用于后续制造环节。

在一可选实施例中，处理器45在将样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像时，具体用于：将样式描述文本对应的文本序列输入至第一图像生成模型中，基于预先训练出的码本，根据文本序列生成多个图像序列，码本表示图像序列的离散化文本表示；对多个图像序列分别进行图像重建，以得到多个初始对象图像。

在一可选实施例中，处理器45在基于预先训练出的码本，根据文本序列生成多个图像序列时，具体包括：将文本序列输入至第一图像生成模型的编码器中，对文本序列进行编码得到第一图像特征；将第一图像特征输入至第一图像生成模型的解码器中，基于码本对第一图像特征分别进行解码得到多个图像序列。

在一可选实施例中，处理器45在基于码本对第一图像特征分别进行解码得到多个图像序列时，具体包括：在第一图像生成模型的解码器中，采用稀疏注意力机制，基于码本对第一图像特征进行解码得到多个图像序列。

在一可选实施例中，处理器45在对多个图像序列分别进行图像重建，以得到多个初始对象图像时，具体用于：将多个图像序列输入至图像序列化模型中，由图像序列化模型的解码器对多个图像序列分别进行图像重建，以得到多个初始对象图像；其中，图像序列化模型采用编码器-解码器结构，图像序列化模型是训练码本得到的神经网络模型。

在一可选实施例中，处理器45还用于：采集跨领域的多个原始样本图像；采用矢量化的对抗生成网络，利用多个原始样本图像进行模型训练，得到图像序列化模型以及码本。

在一可选实施例中，多个原始样本图像包括第一样本组和第二样本组，则处理器45在采用矢量化的对抗生成网络，利用多个原始样本图像进行模型训练，得到图像序列化模型以及码本时，具体用于：利用第一样本组中的原始样本图像对初始模型进行非对抗训练，得到中间态的图像序列化模型；采用矢量化的对抗生成网络，利用第二样本组中的原始样本图像对中间态的图像序列化模型进行对抗训练，得到图像序列化模型以及码本。

在一可选实施例中，处理器45在将多个初始对象图像与样式描述文本输入至第二图文匹配模型进行匹配，得到匹配度符合阈值要求的至少一个候选对象图像时，具体用于：将多个初始对象图像和样式描述文本输入至第二图文匹配模型中，对多个初始对象图像和样式描述文本分别进行特征编码并映射到同一语义空间，得到多个第二图像特征和文本特征；根据多个第二图像特征与文本特征之间的匹配度，从多个初始对象图像中选择匹配度大于阈值的至少一个初始对象图像作为候选对象图像。

进一步，如图4所示，该云服务器还包括：防火墙41、负载均衡器42、通信组件46、电源组件47等其它组件。图4中仅示意性给出部分组件，并不意味着云服务器只包括图4所示组件。

本申请实施例提供的云服务器，在制造行业场景中，根据与指定对象品类相关联的用户行为数据和指定对象品类的对象描述信息，自动捕捉指定对象品类的样式需求，生成样式描述文本，并结合基于文本预测的第一图像生成模型将样式描述文本转化为对象图像；进一步结合第二图文匹配模型对对象图像进行筛选，得到较高质量的对象图像。整个过程中，搭建了从样式描述文本挖掘、文本到图像的预测到图像质量评测的流程，为制造行业提供了自动化的对象图像生成能力，缩短了制造行业设计产出对象图像的周期，提高了对象图像的产出效率。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现图3a或图3b所示方法中的步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现图3a或图3b所示方法中的步骤。

上述图4中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图4中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像生成系统，其特征在于，包括：

文本挖掘组件，用于确定第一制造行业中需要生成样图的指定对象品类，根据与所述指定对象品类相关联的用户行为数据以及所述指定对象品类的对象描述信息，生成用于所述指定对象品类的样式描述文本，其中所述样式描述文本反映所述指定对象品类的样式需求；

图像生成组件，用于将所述样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像；将所述多个初始对象图像与所述样式描述文本输入至第二图文匹配模型进行匹配，以得到匹配度符合阈值要求的至少一个候选对象图像；

其中，第一图像生成模型采用基于矢量化的对抗生成网络VQGAN和稀疏注意力机制实现的两阶段的编码器-解码器结构。

2.根据权利要求1所述的系统，其特征在于，所述图像生成组件将所述样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成以得到多个初始对象图像，具体包括：

将所述样式描述文本对应的文本序列输入至所述第一图像生成模型中，基于预先训练出的码本，根据所述文本序列生成多个图像序列，所述码本表示图像序列的离散化文本表示；

对所述多个图像序列分别进行图像重建，以得到多个初始对象图像。

3.根据权利要求2所述的系统，其特征在于，所述图像生成组件基于预先训练出的码本，根据所述文本序列生成多个图像序列，具体包括：

将所述文本序列输入至所述第一图像生成模型的编码器，对所述文本序列进行编码得到第一图像特征；

将所述第一图像特征输入至所述第一图像生成模型的解码器，在所述解码器中，采用稀疏注意力机制，基于所述码本对所述第一图像特征分别进行解码得到多个图像序列。

4.根据权利要求1所述的系统，其特征在于，所述图像生成组件将所述多个初始对象图像与所述样式描述文本输入至第二图文匹配模型进行匹配以得到匹配度符合阈值要求的至少一个候选对象图像，具体包括：

将所述多个初始对象图像与所述样式描述文本输入至第二图文匹配模型，所述第二图文匹配模型用于将所述多个初始对象图像和所述样式描述文本分别进行特征编码并映射到同一个语义空间，得到多个第二图像特征和文本特征；

根据所述多个第二图像特征与所述文本特征之间的匹配度，从所述多个初始对象图像中选择匹配度大于阈值的至少一个初始对象图像作为候选对象图像。

5.根据权利要求1-4任一项所述的系统，其特征在于，所述文本挖掘组件生成用于所述指定对象品类的样式描述文本，具体包括：

对与所述指定对象品类相关联的用户行为数据进行文本挖掘，得到用户感兴趣的对象属性和品类描述；

对所述指定对象品类在最近时段内出现的新对象的描述信息进行文本挖掘，得到新对象的对象属性和品类描述；

根据所述用户感兴趣的对象属性和品类描述，以及所述新对象的对象属性和品类描述，从所述第一制造行业的品类-属性-属性值知识体系中获取品类属性数据，所述品类属性数据至少包括商品样式属性；

根据所述品类属性数据生成样式描述文本。

6.根据权利要求1-4任一项所述的系统，其特征在于，所述第一制造行业为服装行业、印刷行业、生活用品行业、家居行业、电器行业或乘用车行业。

7.根据权利要求1-4任一项所述的系统，其特征在于，还包括：

质量评测组件，用于将所述至少一个候选对象图像展示给评估系统，以及响应于所述评估系统的选择，获取被选中的目标对象图像，并将所述目标对象图像用于后续制造环节。

8.一种图像生成方法，其特征在于，包括：

根据与第一制造行业中指定对象品类相关联的用户行为数据和所述指定对象品类的对象描述信息，生成用于所述指定对象品类的样式描述文本，所述样式描述文本反映所述指定对象品类的样式需求；

将所述样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像；其中，第一图像生成模型采用基于矢量化的对抗生成网络VQGAN和稀疏注意力机制实现的两阶段的编码器-解码器结构；

将所述多个初始对象图像与所述样式描述文本输入至第二图文匹配模型进行匹配，以得到匹配度符合阈值要求的至少一个候选对象图像。

9.根据权利要求8所述的方法，其特征在于，将所述样式描述文本输入至基于文本预测的第一图像生成模型中进行图像生成，以得到多个初始对象图像，包括：

10.根据权利要求9所述的方法，其特征在于，基于预先训练出的码本，根据所述文本序列生成多个图像序列，包括：

将所述第一图像特征输入至所述第一图像生成模型的解码器，基于所述码本对所述第一图像特征分别进行解码得到多个图像序列。

11.根据权利要求10所述的方法，其特征在于，基于所述码本对所述第一图像特征分别进行解码得到多个图像序列，包括：

在所述第一图像生成模型的解码器中，采用稀疏注意力机制，基于所述码本对所述第一图像特征进行解码得到多个图像序列。

12.根据权利要求11所述的方法，其特征在于，每个图像序列的长度大于或等于4096。

13.根据权利要求10所述的方法，其特征在于，对所述多个图像序列分别进行图像重建，以得到多个初始对象图像，包括：

将所述多个图像序列输入至图像序列化模型中，由所述图像序列化模型中的解码器对所述多个图像序列分别进行图像重建，以得到多个初始对象图像；

其中，所述图像序列化模型采用编码器-解码器结构，所述图像序列化模型是训练所述码本得到的神经网络模型。

14.根据权利要求13所述的方法，其特征在于，还包括：

采集跨领域的多个原始样本图像；

采用矢量化的对抗生成网络，利用所述多个原始样本图像进行模型训练，得到所述图像序列化模型以及所述码本。

15.根据权利要求14所述的方法，其特征在于，所述多个原始样本图像包括第一样本组和第二样本组，则采用矢量化的对抗生成网络，利用所述多个原始样本图像进行模型训练，得到所述图像序列化模型以及所述码本，包括：

利用所述第一样本组中的原始样本图像对初始模型进行非对抗训练，得到中间态的图像序列化模型；

采用矢量化的对抗生成网络，利用所述第二样本组中的原始样本图像对所述中间态的图像序列化模型进行对抗训练，得到所述图像序列化模型以及所述码本。

16.根据权利要求8所述的方法，其特征在于，将所述多个初始对象图像与所述样式描述文本输入至第二图文匹配模型进行匹配，得到匹配度符合阈值要求的至少一个候选对象图像，包括：

将所述多个初始对象图像和所述样式描述文本输入至第二图文匹配模型中，所述第二图文匹配模型用于对所述多个初始对象图像和所述样式描述文本分别进行特征编码并映射到同一语义空间，得到多个第二图像特征和文本特征；

17.根据权利要求8-16任一项所述的方法，其特征在于，根据与第一制造行业中指定对象品类相关联的用户行为数据和所述指定对象品类的对象描述信息，生成用于所述指定对象品类的样式描述文本，包括：

根据所述品类属性数据生成样式描述文本。

18.根据权利要求8-16任一项所述的方法，其特征在于，还包括：

将所述至少一个候选对象图像展示给评估系统，以及响应于所述评估系统的选择，获取被选中的目标对象图像，并将所述目标对象图像用于后续制造环节。