CN112400186B

CN112400186B - 图像生成

Info

Publication number: CN112400186B
Application number: CN201980044979.3A
Authority: CN
Inventors: 向阳; 王博; 石宇; 吴先超; 张晓程; 徐元春; 张玲玲
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2023-08-01
Anticipated expiration: 2039-05-15
Also published as: WO2020227971A1; CN112400186A

Abstract

一种用于图像生成的方法，包括：获得文本(110)；生成至少一个背景图像(120)和至少一个前景图像(130)；基于至少一个背景图像(120)和至少一个前景图像(130)来生成合并图像(140)；根据文本(110)来确定目标图像(150)的风格；以及将合并图像(140)转换为采用所确定的风格的目标图像(150)。

Description

图像生成

背景技术

自动图像生成旨在模拟人类对图像的艺术创作。通常，可以通过机器学习、深度学习等技术来实现自动图像生成。例如，可以使用大量的文本和图像对来训练图像生成模型。当接收到文本输入时，经训练的图像生成模型可以生成与文本输入相关联的图像。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于图像生成的方法和装置。可以从文本中识别至少一个背景元素和至少一个前景元素。可以生成与所述至少一个背景元素相对应的至少一个背景图像。可以生成与所述至少一个前景元素相对应的至少一个前景图像。可以基于所述至少一个背景图像和所述至少一个前景图像来生成合并图像。可以根据文本来确定目标图像的风格。可以将所述合并图像转换为采用所确定的风格的所述目标图像。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的示例性图像生成流程。

图2示出了根据实施例的示例性图像生成流程。

图3示出了根据实施例的生成图像的示例性过程。

图4示出了根据实施例的生成初始图像的示例性过程。

图5示出了根据实施例的注意力生成对抗网络(GAN)模型中的示例性注意力机制。

图6示出了根据实施例的生成前景图像的示例性过程。

图7示出了根据实施例的渐进式增长GAN(PG GAN)模型的示例性训练过程。

图8示出了根据实施例的PG GAN模型中的鉴别器的示例性训练过程。

图9示出了根据实施例的PG GAN模型中的生成器的示例性训练过程。

图10示出了根据实施例的转换风格的示例性过程。

图11示出了根据实施例的循环GAN模型的示例性训练过程。

图12示出了根据实施例的用于图像生成的示例性用户界面。

图13示出了根据实施例的用于图像生成的示例性用户界面。

图14示出了根据实施例的用于图像生成的示例性方法的流程图。

图15示出了根据实施例的用于图像生成的示例性装置。

图16示出了根据实施例的用于图像生成的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

现有的图像生成方式从文本输入中识别图像元素，并生成包括所识别的图像元素的图像。即，现有的图像生成过程仅考虑“绘制什么”，并意图将文本输入中指示的那些图像元素包含到所生成的图像中。

本公开的实施例提出了生成不仅包括文本中指示的图像元素、而且是以符合文本的图像风格来绘制的图像。即，根据本公开的实施例的图像生成考虑了“绘制什么”和“如何绘制”两者。在本文中，“图像”指以创作性方式对内容的视觉表现，其也被称为例如图画、绘画、图片等。“图像元素”指在人类生活、自然界或抽象世界中存在的且可以在图像中视觉化表达的各种可见物体，例如，人、动物、河流、海洋、船只、几何形状等。图像的“风格”指在包括颜色、构图等的表达的艺术形式方面特定于图像的特性，其也被称为例如图片风格、绘画风格、绘画流派等。可以根据各种标准对图像风格进行分类，所述各种标准例如为时间段、国家或地区、艺术家、绘画方式等。例如，一些常见的图像风格可以包括印象派、现实主义、野兽派、抽象主义、浮世绘、中国画等。

本公开的实施例可以识别在文本中明确指示的图像元素，并且还可以确定与文本所表达的情感因素或类别相关联的图像元素。文本的情感类别可以进一步用于确定绘制所生成的图像所采用的风格。

本公开的实施例训练并应用基于机器学习、深度学习、神经网络等的一系列模型或网络，来以符合文本的风格生成图像。例如，可以在生成图像的过程的各个阶段中采用各种类型的生成对抗网络(GAN)模型，以实现更高质量的所生成的图像。

由于本公开的实施例可以利用用户的输入来推断用户可能期望的图像风格，因此以这种风格所生成的图像将对用户更具吸引力。自动图像生成的用户体验将得到改善。所生成的图像中的所有元素将采用统一风格。所生成的图像还将具有更高的多样性。

图1示出了根据实施例的示例性图像生成流程100。图像生成流程100可被执行用于基于文本来生成目标图像。

获得文本110，其可以包括可理解的图像元素，这些图像元素可以被生成图像的过程中所涉及的操作或模型直接理解、利用、处理或表达。

在一种实现方式中，文本110可以是用户的输入，即，是直接从用户处接收的。例如，用户可以输入语句“阳光下的海滩”。来自用户的这个输入描述了可理解的图像元素，例如“海滩”、“阳光”等，并因此可以用作后续处理的基础。在本文中，用户输入可以采用文本格式，或者用户输入可以采用任何其它格式，例如音频，并且可以通过各种现有的格式转换技术而转换成文本。

在一种实现方式中，文本110可以是根据用户的输入而导出的，使得文本110可以包括更易理解的图像元素。

在一个方面，用户输入可以包括描述特定图像元素的话题词语，例如“山”、“船”、“马”等。可以对这些话题词语执行词语扩展，以获得与原始话题词语语义相关的扩展话题词语，例如，词语“山”可以被扩展为“山脉”，词语“船”可以被扩展为“轮船”、“游艇”、“帆船”等。可以将用户输入中的话题词语和/或扩展话题词语包括在文本110中。可以通过各种方式来实现话题词语的扩展。例如，可以预先建立话题到话题知识图谱，并将其用于从一个话题扩展到其它话题。例如，可以训练诸如基于word2vec的扩展模型的机器学习或深度学习模型，并将其应用于基于输入话题来生成相关话题。

在一个方面，用户输入可以包括描述期望在所生成的图像中表达的情感类别的情感词语，例如“悲伤”、“好心情”、“疯狂”等。当从用户输入中识别出情感词语时，可以确定与情感词语相关联的图像元素。例如，通常，可以在具有某些类似“乌云”、“小雨”等图像元素的图像中表达情感“悲伤”。例如，可以在具有某些类似“灿烂的阳光”、“脸上的笑容”等图像元素的图像中表达情感“好心情”。可以将针对用户输入中的情感词语所确定的图像元素包括在文本110中，使得通过将与情感词语相关联的那些图像元素包括到所生成的图像中，所生成的图像可以更好地满足用户的需求。可以通过各种方式来实现从情感词语到图像元素的转换。例如，可以预先建立情感到元素知识图谱，并将其用于从一个情感词语或类别扩展到图像元素。例如，可以训练诸如基于word2vec的扩展模型的机器学习或深度学习模型，并将其应用于基于情感词语或类别来生成相关图像元素。此外，还可以对用户输入中的情感词语执行词语扩展，以获得扩展的情感词语，扩展的情感词语可以进一步用于确定相应的图像元素。可以通过各种方式来实现情感词语的扩展，例如，通过预先建立的情感到情感知识图谱、被训练用于根据输入情感词语来预测相关情感词语的机器学习模型等。此外，还可以通过例如预先建立的话题到情感知识图谱、被训练用于根据输入话题词语来预测相关情感词语的机器学习模型等，来将用户输入中的话题词语扩展到一个或多个情感词语，扩展的情感词语可以进一步用于以如上所述的方式来确定图像元素。

作为根据用户输入来导出文本110的示例，假设用户输入是“快乐地在海中航行”，则可以将文本110导出为“一艘船正在海中航行，伴随着灿烂的阳光、蓝天和白云”，其中，文本110中的“船”可以是通过根据用户输入中的话题词语“航行”和“海”进行扩展而获得的，并且文本110中的“灿烂的阳光”、“蓝天”和“白云”可以是从情感词语“快乐地”或与情感词语“快乐地”相对应的情感类别“愉快”而转换的。所导出的文本110包括可以进而在所生成的图像中视觉化表达的各种图像元素。

基于文本110，可以分别生成至少一个背景图像120和至少一个前景图像130。背景图像120指与文本中的背景元素相对应的图像，而前景图像130指与文本中的前景元素相对应的图像。在本文中，背景元素可以指通常在图像的背景部分中表达的那些图像元素，例如，天空、草原、海洋等，而前景元素可以指通常在图像的前景部分中表达的那些图像元素，例如，人、动物、汽车、船等。可以通过各种方式从文本110中识别背景元素和前景元素。例如，可以预先建立参考表，该参考表包括被分类为背景元素的参考词语集合以及被分类为前景元素的另一参考词语集合。通过将文本中的词语与参考表中的对应参考词语进行匹配，可以确定文本中的词语是背景元素还是前景元素。此外，例如，可以训练基于机器学习的分类器，并将其应用于将文本中的词语分类为背景元素或前景元素。

可以将背景图像120和前景图像130合并在一起以形成合并(merged)图像140，该合并图像140将包含从文本110中识别出的背景元素和前景元素两者。

可以基于文本110来确定图像风格，其中，目标图像将以该图像风格绘制。在一种实现方式中，可以将风格与文本110的情感类别相关联。相应地，可以首先基于文本110的内容来确定情感类别，然后可以将所确定的情感类别进一步用于确定风格。可以通过各种方式来根据文本110确定风格。例如，可以训练分类模型，并将其应用于将文本分类为多种图像风格之一，其中，分类模型可以至少将文本的情感类别作为分类过程的特征。

可以基于所确定的风格来对合并图像140执行风格转换过程，以将合并图像140转换为目标图像150。目标图像150包括在文本110中指示的图像元素，并且采用了符合文本并从而符合用户输入的所确定的风格。

图2示出了根据实施例的示例性图像生成流程200。图像生成流程200是图1中的图像生成流程100的另一示例性实现方式。根据图像生成流程200，除了初始输入之外，用户还可以在目标图像生成期间或者在所生成的目标图像已被呈现给用户之后提供至少一个附加输入。用户的附加输入可以包括关于希望所生成的图像进一步包括什么、希望如何绘制所生成的图像、对已呈现给用户的所生成的图像的修改意见等的附加信息。

与图1中的图像生成流程100相似，图像生成流程200可以获得文本210、生成背景图像220和前景图像230、形成合并图像240、确定图像风格、以及以所确定的风格来生成目标图像250。

此外，在260处，可以确定是否接收到附加用户输入。如果是，则附加用户输入将触发对目标图像150的更新。图像生成流程200可以返回以基于附加用户输入来获得附加文本，并且至少基于附加文本来生成更新的目标图像。在一种实现方式中，可以根据附加文本来更新背景图像和/或前景图像，然后可以根据更新的背景图像和/或更新的前景图像来形成更新的合并图像，可以基于附加文本来更新图像风格，最后可以以更新的图像风格来生成更新的目标图像。应当理解，在对先前目标图像的更新期间，先前目标图像可以被用作更新过程的参考。例如，在生成更新的背景图像和/或前景图像的过程、在确定更新的风格的过程等中，将考虑先前目标图像和附加文本两者。如果接收到一个以上的附加用户输入，则图像生成流程200将迭代地执行对目标图像的上述更新过程。如果在260处确定没有接收到附加用户输入，则可以将当前的更新的目标图像270提供给用户。

图3示出了根据实施例的生成图像的示例性过程300。

获得文本302。文本302可以是从用户处接收的，或者是根据用户的输入所导出的。文本302可以包括将要在所生成的目标图像中包括的图像元素。作为示例，文本可以是“一只鹅站在草地上”。

可以将初始图像生成器304应用于基于文本302来生成初始图像306。初始图像306旨在包括文本302中所包含的图像元素。例如，示例性初始图像306-1包括图像元素，例如“鹅”、“草地”等。然而，由于初始图像生成器304尚未考虑图像风格，因此初始图像306可能不足以反映文本302和用户输入的情感类别，并且可能缺少明确的图像风格，尤其是与文本302相关联且符合用户输入的图像风格。因此，过程300中的后续操作可以旨在将适当的图像风格添加到所生成的图像中并改善所生成的图像的质量。初始图像生成器304可以是被训练用于基于输入文本来生成图像的机器学习或深度学习模型，例如，注意力GAN模型等。此外，初始图像生成器304还可以被训练用于确定输入文本中的每个元素与所生成的图像中的对应图像区域之间的映射关系。

然后，过程300可以遍历文本302中的所有词语，以生成对应的前景图像和背景图像。在308处，可以确定文本302中的当前词语是否是前景元素。如果文本302中的当前词语不是前景元素，则过程300将进行到步骤324。如果文本302中的当前词语是前景元素，例如“鹅”，则可以将前景图像生成器310应用于生成与前景元素相对应的前景图像312，例如，绘制了鹅的示例性前景图像312-1。前景图像生成器310可以是被训练用于基于输入词语来生成图像的机器学习或深度学习模型，例如，渐进式增长GAN(PG GAN)模型等。

在一种实现方式中，前景图像生成器310还可以以符合文本302的风格来生成前景图像312。可以训练分类模型314，并将其应用于将文本302分类为多个图像风格中的一个图像风格316。在一个方面，文本302中的元素可以有助于确定图像风格，例如，元素“睡莲”可以与印象派的风格相关联，因为伟大的艺术家莫奈具有一些关于睡莲的著名绘画作品。在一个方面，文本302或用户输入的情感类别可以有助于确定图像风格，因为情感类别可以反映用户偏爱哪种风格，例如，诸如“热情”、“疯狂”等的情感可以与浪漫主义风格相关联。相应地，可以将所述分类模型训练为基于关于输入文本中的元素、输入文本的情感类别等的特征中的至少一个来将输入文本分类为一种图像风格。前景图像生成器310可以将前景元素和风格316两者作为输入，并以风格316来生成与前景元素相对应的前景图像312。可替代地，前景图像生成器310可以是利用采用了风格316的图像来训练的，相应地，由前景图像生成器310所生成的前景图像312将是采用风格316的。在这种情况下，可以针对多个图像风格分别训练多个候选前景图像生成器，并且所确定的风格316可以用于将与风格316相对应的候选前景图像生成器选择作为前景图像生成器310。

此外，如果文本302中的当前词语是前景元素，则可以通过从初始图像306中去除该前景元素来生成对应的背景图像。例如，可以将图像修补(inpainting)模型318应用于从初始图像306中去除前景元素，以便生成对应的背景图像320。示例性背景图像320-1被示为已经从初始图像306中去除了前景元素“鹅”。图像修补模型318可以利用由初始图像生成器304所确定的映射关系，在初始图像306中定位与前景元素相对应的图像区域，并进一步去除与前景元素相对应的图像区域。图像修补模型318可以是机器学习或深度学习模型，其被训练用于将图像、词语、该词语与该图像中的图像区域之间的映射关系等作为输入，并输出从输入图像中去除了与该词语相对应的图像区域的结果图像。

可以将前景图像312和背景图像320合并在一起以生成合并图像322，例如，图3中的示例性合并图像322-1。

然后，可以在324处确定文本302中是否还有任何将要遍历的更多词语。如果是，则过程300将迭代地返回到步骤308，以生成进一步的前景图像和进一步的背景图像，并相应地获得更新的合并图像。在迭代期间，可以用当前的合并图像322替换初始图像306，以便生成进一步的背景图像。

如果在文本302中没有将要遍历的更多词语，则过程300可以进而将最终的合并图像转换为采用了符合文本302的风格316的目标图像。

过程300可以利用边缘检测模型326以基于最终的合并图像来生成草绘(sketched)图像328。边缘检测模型326可以从最终的合并图像中检测边缘，其中，边缘可以指在最终的合并图像中颜色变化或纹理变化相对较大的接合部分，例如鹅的轮廓、鹅的鼻子的轮廓、草地的轮廓等。边缘检测模型326还可以从最终的合并图像中去除元素细节。最后，边缘检测模型326可以输出与最终的合并图像相对应的草绘图像328，例如，图3中的示例性草绘图像328-1。边缘检测模型326可以是被训练用于基于输入图像来生成草绘图像的机器学习或深度学习模型。

然后，过程300可以通过将风格316添加到草绘图像328来生成目标图像。可以将风格转换模型330应用于基于草绘图像328来生成采用了风格316的目标图像332。在目标图像332中，所有元素均是以统一的风格316来绘制的，如图3中的示例性目标图像332-1所示。风格转换模型330可以是被训练用于在特定图像风格下根据输入图像来生成图像的机器学习或深度学习模型，例如，循环GAN模型等。在一种实现方式中，对于每种图像风格，可以训练一个风格转换模型，相应地，可以获得与各个图像风格相对应的多个候选风格转换模型。当确定了风格316时，可以选择与风格316相对应的候选风格转换模型，以用于生成采用了风格316的目标图像332。

应当理解，图3中的所有步骤、操作和模型都是示例性的，并且根据实际设计和需求，可以对图3中的图像生成过程300做出各种改变。

在一种实现方式中，代替在从步骤308处开始的每次迭代中生成更新的合并图像，可以在324处的确定操作之后再生成合并图像。即，通过对应于文本302中的词语的多次迭代，可以获得分别对应于多个前景元素的多个前景图像，并且还可以获得从原始图像306中去除了多个前景元素并且仅包含文本302中的背景元素的最终背景图像。然后，当确定在文本302中没有将要遍历的更多词语时，可以基于多个前景图像和最终背景图像来生成合并图像。

在一种实现方式中，代替以步骤308处确定当前词语是否为前景词语来开始过程300中的每次迭代，也可以以确定当前词语是否为背景词语来开始每次迭代。当当前词语被识别为背景词语时，迭代将进行到步骤324，否则，如果当前词语被识别为不是背景词语而是前景词语，则迭代将继续以生成前景图像312、背景图像320及进一步的合并图像322。

在一种实现方式中，尽管将初始图像生成器304和图像修补模型318示为单独的模块或模型，但是它们也可以在功能上组合在一起以作为背景图像生成器。该背景图像生成器可以用于生成与文本302中的背景元素相对应的背景图像。

在一种实现方式中，过程300可以包括在接收到附加用户输入且相应地获得附加文本的情况下用于更新目标图像332的进一步操作。在这种情况下，可以在生成更新的目标图像的过程中考虑先前目标图像和附加文本两者。在一个方面，如果附加文本指示进一步的前景元素，则前景图像生成器310可以生成与该进一步的前景元素相对应的前景图像，并且还可以利用该前景图像来更新合并图像322，该合并图像322进一步用于生成更新的目标图像。在一个方面，如果附加文本指示进一步的背景元素，则初始图像生成器304和图像修补模型318可以协作生成包含该进一步的背景元素的更新的背景图像。例如，初始图像生成器304可以基于原始文本302和附加文本两者来生成更新的初始图像，并且图像修补模型318可以从更新的初始图像中去除前景元素，以生成更新的背景图像。相应地，也可以利用该更新的背景图像来更新合并图像322，该合并图像322进一步用于生成更新的目标图像。在一个方面，如果附加文本指示对图像风格的偏好，则可以通过分类模型314，基于附加文本来更新风格316。风格转换模型330可以进一步使用更新的风格来生成更新的目标图像。前景图像生成器310还可以使用该更新的风格来生成采用了该更新的风格的更新的前景图像。

图4示出了根据实施例的生成初始图像的示例性过程400。在过程400中，注意力GAN模型420被用于基于文本410来生成初始图像430。注意力GAN模型420是图3中的初始图像生成器304的示例性实现方式。注意力GAN模型420旨在通过隐含高维空间中的注意力机制来在文本与图像之间建立连接。该注意力机制可以反映在文本中的词语或元素与所生成的图像中的图像区域之间的映射关系。例如，该注意力机制可以用于选择与文本中的词语相关联的候选图像部分，并进一步确定将所选择的候选图像部分放置在图像中的哪个位置。可以通过多个文本-图像对来训练注意力GAN模型420。当应用经训练的注意力GAN模型420时，其可以将文本作为输入并且输出包含文本中的元素的图像。

图5示出了根据实施例的注意力GAN模型中的示例性注意力机制500。注意力机制500可以包括各种类型的注意力，例如，文本自注意力、图像自注意力、文本-图像联合注意力等。

对于文本510，可以对文本510执行文本自注意力512以获得文本向量514。文本向量514可以包括对文本510中的词语的向量表示，其中，每个词语的向量表示反映与文本510中所有其它词语的相关性或匹配度。

在一种实现方式中，文本自注意力512可以采用多头注意力的形式。可以将多头注意力的输入表示为查询Q、键K和值V。多头注意力可以是通过对h个缩放的点积注意力的堆叠来形成的。每个缩放的点积注意力的输入也可以是Q、K和V。此处，Q、K和V中的每一个都可以是文本中的n个词语的所有词语嵌入。对于每个缩放的点积注意力，一次从Q中取出一个词语嵌入，以检查与任何其它词语嵌入的匹配度，并且该过程被执行n次。对于多头注意力，可以分别对Q、K和V执行线性变换以获得Q’、K’和V’。然后，可以为Q’、K’和V’计算缩放的点积注意力，并且该计算可以被重复h次。h个计算结果可以被级联在一起，并进而被执行线性变换。线性变换的结果是多头注意力的输出。文本自注意力的输出被从[批量大小,最大序列长度,词语嵌入维度]改造为[批量大小,最大序列长度,头数量*头嵌入维度]。作为示例，假设头数量h为8，则文本自注意力的输出可以被从[64，30，512]改造为[64，30，8*64]。

对于图像520，可以对图像520执行图像自注意力522，以获得图像向量524。图像向量524可以包括对图像520中的区域或像素的向量表示，其中，每个区域的向量表示反映与图像520中所有其它区域的相关性或匹配度。图像自注意力522旨在建立图像中各个区域之间的关系，并且可以用于例如为当前区域找到图像中最近似或最相关的区域。在一种实现方式中，图像自注意力522也可以采用多头注意力的形式，其与如上所述的文本自注意力512的多头注意力相似。例如，可以对与图像中的区域的向量表示相对应的卷积特征图x的集合分别执行线性/非线性变换，以获得例如一组变换后的x¹、x²和x³。然后，可以对x¹进行转置并将其与x²执行矩阵乘法，并且可以通过softmax对乘法结果进行归一化以获得注意力图。可以基于区域或像素来将注意力图与x³执行矩阵乘法，以获得自注意力特征图集合。

在一种实现方式中，可以分别训练文本自注意力512和图像自注意力522，并且可以在各自的训练过程期间更新文本向量和图像向量。在另一种实现方式中，也可以在注意力机制500中联合地训练文本自注意力512和图像自注意力522，并且可以同步地更新文本向量和图像向量。

在注意力机制500中，将三个全连接线性层f(x)、g(x)和h(x)分别应用于文本向量514和图像向量524，以获得经转换的文本向量516、经转换的图像向量526和经转换的图像向量528。可以对经转换的文本向量516的转置与经转换的图像向量526执行矩阵乘法530，以便计算它们在高维度密集空间中的距离。矩阵乘法530的结果是权重矩阵，其表达了图像520中的区域与文本510中的词语的语义含义之间的距离，其进一步形成注意力图540。然后，可以对注意力图540和经转换的图像向量528执行矩阵乘法550，以便进一步为图像中的每个区域识别最近似或最相关的词语，并最终获得联合注意力图560。

图6示出了根据实施例的生成前景图像的示例性过程600。在过程600中，PG GAN模型620被用于基于前景词语或元素610来生成前景图像630。PG GAN模型620是图3中的前景图像生成器310的示例性实现方式。在一种实现方式中，PG GAN模型620可以以预定图像风格来生成前景图像630。在这种情况下，可以利用多个词语-图像对来训练PG GAN模型620，其中，图像被附加有例如指示是否是人为创建的图像的标签、指示图像的风格的标签、等等。可以训练PG GAN模型620，使得所生成的图像近似于现有风格，但是仍然具有足够的多样性。这可以通过在训练过程期间应用最小-最大(min-max)损失函数来实现。

图7示出了根据实施例的PG GAN模型的示例性训练过程700。PG GAN模型可以包括生成器710和鉴别器720。

对于生成器710，训练期间的数据712可以包括图像、标签A和标签B。标签A指示图像是真实的或伪造的，即，图像是人为创建的或非人为创建的。标签B是描述图像类别的概率的向量，其中，类别可以包括各种类型的前景元素，例如鹅、马、袋鼠等。如图所示，生成器710可以具有两个输入，例如，白噪声和标签B。生成器710的目标是生成与标签B中指示的类别相匹配的图像。假设总共有5个类别，则标签B可以是5维向量，其中，每个维度对应于一个类别。假设图像显示了袋鼠，则可以将与标签B中的类别“袋鼠”相对应的维度设置为1，并将所有其它维度设置为0。

可以将由生成器710所生成的图像进一步提供给鉴别器720。鉴别器720将来自生成器710的自动生成的<图像，标签>对和参考<图像，标签>对作为输入。鉴别器720的目标是将参考/真实图像与所生成的/伪造图像区分开。可以将交叉熵损失用作损失函数。如训练期间的数据722所示，参考<图像，标签>对可以包括真实图像、标签A＝1和标签B，其中，标签B指示相应维度中的类别的概率的列表，其中，对应于真实图像的类别的维度被设置为1，所有其它维度被设置为0。如训练期间的数据722所示，自动生成的<图像，标签>对可以包括由生成器710所生成的伪造图像、标签A＝1和标签B，其中，标签B可以指示伪造图像中包括的元素的统一分布。统一分布可以有助于生成高质量图像，因为如果将伪造图像的标签B设置为与真实图像的标签B相同，则所生成的伪造图像的损失函数将包含与真实图像的较少的区分度，由此使得鉴别器720更难以进行分类。

可以根据图7中的架构来联合地训练生成器710和鉴别器720。下面将结合图8和图9讨论鉴别器和生成器的训练的示例性细节。

图8示出了根据实施例的PG GAN模型中的鉴别器的示例性训练过程800。具体而言，图8示出了从步骤t到步骤t+1的训练鉴别器的前向和后向过程。可以将输入810，例如白噪声和标签B，提供给生成器的版本t 820。生成器820可以生成图像，例如伪造图像830。可以将伪造图像830与标签A＝0和具有统一分布的标签B一起提供给鉴别器的版本t 850。此外，还可以将真实图像840与标签A＝1和指示真实图像的类别的标签B一起提供给鉴别器850。然后，可以计算鉴别器的版本t 850的损失860。损失860可以进一步用于更新鉴别器以获得鉴别器的版本t+1 870。

图9示出了根据实施例的PG GAN模型中的生成器的示例性训练过程900。具体而言，图9示出了从步骤t到步骤t+1的训练生成器的前向和后向过程。可以将输入910，例如白噪声和标签B，提供给生成器的版本t 920。生成器920可以生成图像，例如伪造图像930。可以将伪造图像930与标签A＝0和具有统一分布的标签B一起提供给鉴别器的版本t+1 940。鉴别器940可以给出是标签A和标签B的分数950。该分数可以进一步用于计算生成器的版本t 920的损失960。损失960可以进一步用于更新生成器以获得生成器的版本t+1 970。

可以联合执行图8中的过程800和图9中的过程900，以实现对整个PG GAN模型的训练。

图10示出了根据实施例的转换风格的示例性过程1000。在过程1000中，循环GAN模型1020被用于基于草绘图像1010来生成目标图像1030。循环GAN模型1020是图3中的风格转换模型330的示例性实现方式。在一种实现方式中，循环GAN模型1020可以以预定图像风格来生成目标图像1030。在这种情况下，可以利用该图像风格下的多个图像来训练循环GAN模型1020。循环GAN模型1020旨在使得所生成的目标图像1030中的所有元素具有统一的图像风格。在一种实现方式中，可以分别训练对应于各个图像风格的多个候选循环GAN模型。当确定要在目标图像中采用的图像风格时，可以选择与该风格相对应的候选循环GAN模型，以用于生成采用了该风格的目标图像。

图11示出了根据实施例的循环GAN模型的示例性训练过程1100。循环GAN模型包括形成循环网络的两个镜像对称GAN。这两个GAN共享两个生成器，例如，生成器A-B和生成器B-A，并且具有各自的鉴别器，例如，鉴别器A和鉴别器B。即，在循环GAN模型中总共存在两个生成器和两个鉴别器。对于循环GAN模型，可以实现利用两个非成对图像集进行训练。

在一个方向上，可以获得域A中的输入图像A并将其提供给生成器A-B，生成器A-B用于将域A中的图像转换为域B中的图像。相应地，生成器A-B可以基于输入图像A来输出所生成的图像B。所生成的图像B被提供给生成器B-A，生成器B-A用于将域B中的图像转换为域A中的图像。相应地，生成器B-A可以基于所生成的图像B来输出循环图像A。循环图像A应当与输入图像A相似，以用于定义两个非成对数据集之间的有意义的映射。类似地，在另一个方向上，可以将域B中的输入图像B提供给另一个GAN，以便最终生成循环图像B。

通过以上训练过程，当将域B中的图像选择作为采用了预定图像风格的图像时，则经训练的循环GAN模型将用于生成采用了预定图像风格的目标图像。

应当理解，以上在图6至图11中针对注意力GAN模型、PG GAN模型和循环GAN模型所讨论的所有架构和过程都是示例性的，根据实际设计和需求，可以对这些架构和流程进行各种更改。

在一些情况下，在根据本公开实施例的图像生成期间，可以获得附加用户输入并相应地获得附加文本，这可以触发对当前生成的目标图像的更新。为了更新当前目标图像，在一个方面，注意力GAN模型可以将原始文本和附加文本都作为输入，并且还可以将当前目标图像作为输入，该当前目标图像可以替换先前提供给注意力GAN模型中的生成器的白噪声。因此，注意力GAN模型可以至少考虑到当前目标图像来生成更新的初始图像。在另一个方面，如果附加文本包含新的前景元素，则PG GAN模型可以生成与新的前景元素相对应的新的前景图像，而如果附加文本导致更新的风格，则可以训练或重新选择PG GAN模型以用于生成采用了更新的风格的初始图像。在另一个方面，如果附加文本导致更新的风格，则还可以训练或重新选择循环GAN模型以用于生成采用了更新的风格的初始图像。

根据本公开实施例的图像生成方案可以被应用于各种应用场景中或者具有各种产品形式。在一种实现方式中，可以在专门设计用于为用户提供图像生成服务的独立应用软件或平台中实施所述图像生成方案。该独立应用软件或平台可以具有用于收集用户输入并呈现所生成的图像的用户界面。在一种实现方式中，可以在第三方应用软件或平台中将所述图像生成方案实施为该第三方应用软件或平台的、用于提供图像生成服务的附加功能模块。例如，可以将所述图像生成方案作为附加特征而添加到AI聊天机器人中，从而，在与用户聊天期间，该AI聊天机器人可以收集用户输入、根据用户输入来生成图像、并且向用户提供或呈现所生成的图像。

图12示出了根据实施例的用于图像生成的示例性用户界面。图12中的用户界面示出了根据用户的输入来提供所生成的图像的过程。在用户界面1210中，可以呈现要求用户输入关于期望生成什么图像的描述的提示，例如，“请输入要为其绘制绘画的一些文本”。在用户界面1220中，用户可能在输入框1222中输入文本“独自在海中航行”，以指示用户想要获得关于该文本的图像。在接收到用户的输入之后，可以根据本公开的实施例来执行图像生成过程。在用户界面1230中，可以将所生成的图像1232呈现给用户。

图13示出了根据实施例的用于图像生成的示例性用户界面。图13中的用户界面示出了可以通过与用户的交互来进行图像生成。例如，可以根据用户的附加输入来更新所生成的图像。图13中的用户界面可以被视为图12中的用户界面的延续。在用户界面1310中，在向用户呈现了所生成的图像1312之后，可以在交互框1314中提供要求用户输入关于所生成的图像1312的评论的提示。在用户界面1320中，用户可能在交互框中输入文本1322“我更喜欢深色的”。然后，可以根据本公开的实施例，响应于用户对文本1322的输入来更新所生成的图像1312。在用户界面1330中，可以将更新后的图像1332呈现给用户，该图像已根据用户对文本1322的输入而进行了更新。

应当理解，图12和图13中的用户界面内的所有UI元素和UI元素的布局都是示例性的，根据不同的应用场景，可以以各种方式来改变这些用户界面。

图14示出了根据实施例的用于图像生成的示例性方法1400的流程图。

在1410处，可以从文本中识别至少一个背景元素和至少一个前景元素。

在1420处，可以生成与所述至少一个背景元素相对应的至少一个背景图像。

在1430处，可以生成与所述至少一个前景元素相对应的至少一个前景图像。

在1440处，可以基于所述至少一个背景图像和所述至少一个前景图像来生成合并图像。

在1450处，可以根据所述文本来确定目标图像的风格。

在1460处，可以将所述合并图像转换为采用所确定的风格的所述目标图像。

在一种实现方式中，所述生成至少一个背景图像可以包括：基于所述文本来生成初始图像；以及通过从所述初始图像中去除所述至少一个前景元素来生成所述至少一个背景图像。可以通过背景图像生成器来生成所述至少一个背景图像。所述背景图像生成器可以包括：注意力GAN模型，用于基于所述文本来生成所述初始图像；以及图像修补模型，用于从所述初始图像中去除所述至少一个前景元素。

在一种实现方式中，可以通过前景图像生成器来生成所述至少一个前景图像。所述前景图像生成器可以包括PG GAN模型。

在一种实现方式中，可以通过分类模型、基于所述文本来确定所述风格。

在一种实现方式中，所述风格可以与所述文本的情感类别相关联。

在一种实现方式中，所述将所述合并图像转换为采用所确定的风格的所述目标图像可以包括：通过边缘检测模型，基于所述合并图像来生成草绘图像；以及通过风格转换模型，将所述草绘图像转换为采用所确定的风格的所述目标图像。所述风格转换模型可以包括循环GAN模型。所述通过风格转换模型、将所述草绘图像转换为采用所确定的风格的所述目标图像可以包括：从多个候选风格转换模型中选择与所确定的风格相对应的候选风格转换模型；以及通过所选择的候选风格转换模型，将所述草绘图像转换为采用所确定的风格的所述目标图像。

在一种实现方式中，方法1400还可以包括：接收所述文本。

在一种实现方式中，方法1400还可以包括：接收输入；以及根据所述输入来导出所述文本。所述导出所述文本可以包括：从所述输入中识别情感词语；以及确定与所述情感词语相关联的至少一个图像元素。

在一种实现方式中，方法1400还可以包括：获得附加文本；以及至少基于所述附加文本来更新所述目标图像。

应当理解，方法1400还可以包括根据上述本公开实施例的用于图像生成的任何步骤/过程。

图15示出了根据实施例的用于图像生成的示例性装置1500。

装置1500可以包括：元素识别模块1510，用于从文本中识别至少一个背景元素和至少一个前景元素；背景图像生成模块1520，用于生成与所述至少一个背景元素相对应的至少一个背景图像；前景图像生成模块1530，用于生成与所述至少一个前景元素相对应的至少一个前景图像；合并图像生成模块1540，用于基于所述至少一个背景图像和所述至少一个前景图像来生成合并图像；风格确定模块1550，用于根据所述文本来确定目标图像的风格；以及风格转换模块1560，用于将所述合并图像转换为采用所确定的风格的所述目标图像。

在一种实现方式中，所述背景图像生成模块1520可以用于：通过注意力GAN模型，基于所述文本来生成初始图像；以及通过从所述初始图像中去除所述至少一个前景元素来生成所述至少一个背景图像。

在一种实现方式中，所述前景图像生成模块1530可以包括PG GAN模型。

在一种实现方式中，所述风格转换模块1560可以用于：通过边缘检测模型，基于所述合并图像来生成草绘图像；以及通过循环GAN模型，将所述草绘图像转换为采用所确定的风格的所述目标图像。

此外，装置1500还可以包括根据上述本公开实施例的被配置为用于图像生成的任何其它模块。

图16示出了根据实施例的用于图像生成的示例性装置1600。

装置1600可以包括至少一个处理器1610和存储有计算机可执行指令的存储器1620。当所述计算机可执行指令被执行时，所述至少一个处理器1610可以执行根据上述本公开实施例的用于图像生成的方法的任何操作。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于图像生成的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于这些方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都旨在由权利要求所覆盖。

Claims

1.一种用于图像生成的方法，包括：

从文本中识别至少一个背景元素和至少一个前景元素；

基于所述文本来生成初始图像；

通过从所述初始图像中迭代地去除所述至少一个前景元素来生成至少一个背景图像；

生成与所述至少一个前景元素相对应的至少一个前景图像；

基于所述至少一个背景图像和所述至少一个前景图像来生成合并图像；

根据所述文本来确定目标图像的风格；以及

将所述合并图像转换为采用所确定的风格的所述目标图像，

其中，所述将所述合并图像转换为采用所确定的风格的所述目标图像包括：通过边缘检测模型，基于所述合并图像来生成草绘图像，所述边缘检测模型用于通过从所述合并图像中检测边缘并从所述合并图像中去除元素细节来输出所述草绘图像；以及通过风格转换模型，将所述草绘图像转换为采用所确定的风格的所述目标图像，

其中，所述方法还包括：获得附加文本；以及基于所述附加文本和所述目标图像来生成更新的目标图像，

其中，所述生成更新的目标图像包括：基于所述附加文本和所述目标图像，来生成更新的背景图像或更新的前景图像或者确定更新的风格；以及利用所述更新的背景图像、所述更新的前景图像或者所述更新的风格来生成所述更新的目标图像。

2.根据权利要求1所述的方法，其中，所述至少一个背景图像是通过背景图像生成器来生成的，并且所述背景图像生成器包括：注意力生成对抗网络(GAN)模型，用于基于所述文本来生成所述初始图像；以及图像修补模型，用于从所述初始图像中去除所述至少一个前景元素。

3.根据权利要求1所述的方法，其中，所述至少一个前景图像是通过前景图像生成器来生成的。

4.根据权利要求3所述的方法，其中，所述前景图像生成器包括渐进式增长生成对抗网络(PG GAN)模型。

5.根据权利要求1所述的方法，其中，所述风格是通过分类模型、基于所述文本来确定的。

6.根据权利要求1所述的方法，其中，所述风格与所述文本的情感类别相关联。

7.根据权利要求1所述的方法，其中，所述风格转换模型包括循环生成对抗网络(GAN)模型。

8.根据权利要求1所述的方法，其中，所述通过风格转换模型，将所述草绘图像转换为采用所确定的风格的所述目标图像包括：

从多个候选风格转换模型中选择与所确定的风格相对应的候选风格转换模型；以及

通过所选择的候选风格转换模型，将所述草绘图像转换为采用所确定的风格的所述目标图像。

9.根据权利要求1所述的方法，还包括：接收所述文本。

10.根据权利要求1所述的方法，还包括：

接收输入；以及

根据所述输入来导出所述文本。

11.根据权利要求10所述的方法，其中，所述导出所述文本包括：

从所述输入中识别情感词语；以及

确定与所述情感词语相关联的至少一个图像元素。

12.一种用于图像生成的装置，包括：

元素识别模块，用于从文本中识别至少一个背景元素和至少一个前景元素；

背景图像生成模块，用于通过注意力生成对抗网络(GAN)模型，基于所述文本来生成初始图像，以及通过从所述初始图像中迭代地去除所述至少一个前景元素来生成至少一个背景图像；

前景图像生成模块，用于生成与所述至少一个前景元素相对应的至少一个前景图像；

合并图像生成模块，用于基于所述至少一个背景图像和所述至少一个前景图像来生成合并图像；

风格确定模块，用于根据所述文本来确定目标图像的风格；以及

风格转换模块，用于将所述合并图像转换为采用所确定的风格的所述目标图像，

其中，所述风格转换模块用于：通过边缘检测模型，基于所述合并图像来生成草绘图像，所述边缘检测模型用于通过从所述合并图像中检测边缘并从所述合并图像中去除元素细节来输出所述草绘图像；以及通过循环生成对抗网络(GAN)模型，将所述草绘图像转换为采用所确定的风格的所述目标图像，

其中，所述装置还包括：附加文本获得模块，用于获得附加文本；以及更新目标图像生成模块，用于基于所述附加文本和所述目标图像来生成更新的目标图像，

其中，所述更新目标图像生成模块还用于：基于所述附加文本和所述目标图像，来生成更新的背景图像或更新的前景图像或者确定更新的风格；以及利用所述更新的背景图像、所述更新的前景图像或者所述更新的风格来生成所述更新的目标图像。

13.根据权利要求12所述的装置，其中，所述前景图像生成模块包括渐进式增长生成对抗网络(PG GAN)模型。

14.根据权利要求12所述的装置，其中，所述风格与所述文本的情感类别相关联。

15.一种用于图像生成的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使得所述至少一个处理器：

从文本中识别至少一个背景元素和至少一个前景元素；

基于所述文本来生成初始图像；

生成与所述至少一个背景元素相对应的至少一个背景图像；

生成与所述至少一个前景元素相对应的至少一个前景图像；

根据所述文本来确定目标图像的风格；以及

将所述合并图像转换为采用所确定的风格的所述目标图像，

其中，所述计算机可执行指令还使得所述至少一个处理器：获得附加文本；以及基于所述附加文本和所述目标图像来生成更新的目标图像，