CN118202394A

CN118202394A - 用于控制风格化画像与原始照片之间的相似度的画像风格化框架

Info

Publication number: CN118202394A
Application number: CN202280071887.6A
Authority: CN
Inventors: 刘晶; 黎振邦; 宋果鲜; 罗琳捷
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-11-05
Filing date: 2022-11-04
Publication date: 2024-06-14
Also published as: WO2023080845A3; US20230146676A1; WO2023080845A2

Abstract

描述了针对控制风格化画像与原始照片之间的相似度的系统和方法。在示例中，输入图像使用变分自动编码器接收并编码，以生成潜在向量。潜在向量可以与最佳表示原始用户画像图像中的面部的潜在向量混合。所得到的经混合的潜在向量可以被提供给生成对抗网络(GAN)生成器，以生成受控风格化图像。在示例中，风格化GAN生成器的一个或多个层可以与原始GAN生成器的一个或多个层交换。因此，用户可以交互地确定多少风格化相对于个性化应被包括在所得到的风格化画像中。

Description

用于控制风格化画像与原始照片之间的相似度的画像风格化框架

相关申请的交叉引用

本申请要求于2021年11月5日提交的自动且有效的题为“用于控制风格化画像与原始照片之间的相似度的画像风格化框架(PORTRAIT STYLIZATION FRAMEWORK TOCONTROL THE SIMILARITY BETWEEN STYLIZED PORTRAITS AND ORIGINAL PHOTO)”的美国申请号17/519，711的优先权，该申请的全部内容通过引用并入本文。

背景技术

描绘主体外貌的艺术画像是追溯文明之初的重要艺术形式。它超越了如实的描绘而演变为具有多种风格的更多创造性解释，诸如抽象艺术、古典主义和卡通。近年来，由于深度学习的进步，自动风格化画像也得到了快速的发展。涉及神经风格的早期方法已令人信服地证明了将纹理风格从范例源转移到目标图像的能力，其中真实的照片被变换为梵高或毕加索绘画。然而，当涉及艺术画像时，这些方法在很大程度上不能捕获不同画像风格的重要的几何相关性基元，因此风格化质量下降。

图像到图像的转换方法随后被引入来以有监督的方式使用成对数据集或在无监督的设置中使用不成对数据集，将图像从源域“转换”到目标域。这些方法已被开发用于画像风格化，例如，自拍和卡通。然而，有监督的方法需要用于训练的成对数据集，成对数据集如果不可行，这将是人工繁重的，而无监督的方法不仅需要大量的不成对数据，而且经常面临稳定训练收敛和生成高分辨率结果的困难。此外，在画像风格化应用中，当在“风格化”和“个性化”之间进行平衡时，出现了一些最大的挑战。应用于来自源域的图像(诸如照片)的风格化越多，所得到的画像越倾向于看起来更不像原始照片中的主题。在图像中保持的个性化越多，画像倾向于在结果中包括风格化的主题就越少，从而使得画像风格化的目标受挫。

已针对这些和其他整体考虑描述了实施例。尽管已讨论了相对具体的问题，但是本文中描述的示例不应限于解决在上述背景技术中标识的具体问题。

发明内容

如本文所公开的，画像风格化可以与其它基于StyleGAN的方法混合，以允许用户交互地确定应用于输入图像的风格化相对于个性化的个性化量。在示例中，画像风格化模型的潜在编码可以与另一基于StyleGAN的方法的潜在编码混合。因此，用户能够选择混合潜在编码的哪个部分和不混合潜在编码的哪个部分。在一些示例中，用户可以被提供有输入选项，输入选项用于提供风格化相对于个性化的量。在示例中，与不同的潜在编码部分相关联的权重可以被建立，以控制发生的潜在编码混合的量。因此，诸如眼镜的附件或其它个性化附件可以出现在最终风格化画像中，而利用先前风格化技术制作得到的画像可能缺少眼镜或其它个性化附件。

在一些示例中，实现了经由反演一致的迁移学习来生成高质量风格画像的AgileGAN框架。AgileGAN框架包括分级变分自动编码器；分级变分自动编码器生成符合由基于StyleGAN的网络提供的原始潜在高斯分布的反演映射分布，同时将原始潜在空间增广到多分辨率潜在空间来提供对不同级别细节的编码。因此，由基于StyleGAN的网络提供的潜在编码可以与由诸如PSP和OPT的另一基于StyleGAN的网络提供的潜在编码混合。关于GAN网络(包括基于StyleGAN的网络和StyleGAN2)的附加信息可以在以下印刷论文中找到：“A Style-Based Generator Architecture for Generative Adversarial Networks”toT.Karras,S.Laine,and T.Aila.,in Proc.IEEE/CVF Conference on Computer Visionand Pattern Recognition,2019以及“Analyzing and Improving the Image Quality ofStyleGAN”to T.Karras,S.Laine,M.Aittala,J.Hellsten,J.Lehtinen,and T.Aila,,inProc.IEEE/CVF Conference on Computer Vision and Patter Recognition,2020，针对其教导的所有内容和针对所有目的，两者均通过引用并入本文。

根据本公开的至少一个示例，描述了用于生成风格化图像的方法。方法可以包括：接收输入图像；使用第一编码器，基于输入图像而生成第一潜在编码；使用第二编码器，基于输入图像而生成第二潜在编码；将第一潜在编码和第二潜在编码混合，以获得经混合的潜在编码；通过生成对抗网络生成器，基于经混合的潜在编码，生成风格化图像；以及提供风格化图像作为输出。

根据本公开的至少一个示例，描述了用于生成风格化图像的系统。系统可以包括一个或多个硬件处理器，一个或多个硬件处理器由机器可读指令配置为：接收输入图像；使用第一编码器，基于输入图像而生成第一潜在编码；使用第二编码器，基于输入图像而生成第二潜在编码；将第一潜在编码和第二潜在编码混合，以获得经混合的潜在编码；通过生成对抗网络生成器，基于经混合的潜在编码，生成风格化图像；以及提供风格化图像作为输出。

根据本公开的至少一个示例，描述了包括指令的计算机可读存储介质。指令在由处理器执行时使得处理器：接收输入图像；使用第一编码器，基于输入图像而生成第一潜在编码；使用第二编码器，基于输入图像而生成第二潜在编码；将第一潜在编码和第二潜在编码混合，以获得经混合的潜在编码；通过生成对抗网络生成器，基于经混合的潜在编码，生成风格化图像；以及提供风格化图像作为输出。

提供本发明内容，以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

参考以下附图来描述非限制性和非详尽的示例。

图1描绘了根据本公开的示例的实现图像风格化和混合方法的风格化图像生成系统的示例性数据流。

图2描绘了根据本公开的示例的能够实现用于风格化图像生成系统的图像风格化和混合方法的示例性处理或计算设备。

图3描绘了图示了可以实践本公开的各方面的计算系统的物理组件(例如，硬件)的框图。

图4图示了用于处理数据的系统的架构的一个方面。

图5描绘了根据本公开的示例的用于从输入图像生成风格化图像的方法的细节。

图6描绘了根据本公开的示例的用于控制风格化画像与原始照片之间的相似度的示例性方法。

具体实施方式

在以下详细描述中，参考了形成其一部分的附图，并且在附图中通过图示的方式示出了特定实施例或示例。这些方面可以被组合，其他方面可以被利用，并且可以在不脱离本公开的情况下进行结构改变。实施例可以被实践为方法、系统或设备。因此，实施例可以采取硬件实现方式、完全软件实现方式或将软件和硬件方面组合的实现方式的形式。因此，以下详细描述不应被视为具有限制意义，并且本公开的范围由所附权利要求书及其等同物来限定。

已在非照片真实感渲染的上下文中探索了以艺术方式使得面部图像风格化。早期的方法依赖于使用线性滤波器的低级直方图匹配。通过匹配卷积层中的特征统计，神经风格迁移经由深度学习，导致早期令人激动的结果。从那时起，已提出了针对经由马尔可夫随机场(MRF)在深度特征空间中实施局部图案以及通过强加时间约束来扩展对视频的风格迁移并改进质量的若干改进。虽然这些方法对于几种艺术风格可以获得通常令人信服的结果，但是它们通常在涉及面部特征的显著几何变形的风格(诸如卡通化)上失败。对于更一般的风格化，图像到图像(I2I)转换可以被用于将输入图像从源域转换到目标域。

条件生成对抗网络(GAN)可以被实现来学习输入到输出映射。类似的思想已被应用于各种任务，诸如草图到照片和属性到图像。例如，CycleGAN中众所周知的循环一致性(cycle-consistency)损失已被提出来改进未配对设置的网络训练稳定性。无监督的方法也已被用于卡通化。此外，CycleGAN已被扩展到跨域动画画像生成，并且无监督方法已并入了用于卡通面部生成的注意力模块和可学习的归一化函数，其中它们的注意力引导模型可以灵活地控制形状和纹理的变化量。GAN已被用于合成经由对抗训练而理想地匹配训练数据集分布的图像。GAN已被应用于各种领域，包括但不限于图像修补、图像操纵和纹理合成。为了改进GAN的架构、合成质量和训练稳定性，已做出了各种改进。

由于GAN通常被设计为通过从潜在空间中的已知分布中采样来生成真实图像，所以GAN反演解决了在给定输入图像时找到将重构该图像的最准确潜在编码的补充问题。一种方法基于优化，其直接优化潜在编码来将单个输入实例的逐像素重构损失最小化。另一方法是基于学习的，其中确定性模型通过最小化输入和合成图像之间的差来训练。其它工作通过学习产生用于后续优化的良好初始化的编码器来将这些优化和基于学习的方法组合。除了图像重建之外，一些示例还在进行图像操纵时使用反演。例如，混合方法可以将图像编码到用于图像编辑的语义可操纵域中。附加地，提出了通用Pixel2Style2Pixel(PSP)编码器；这样的编码器基于用于在若干真实图像转换任务中嵌入图像的专用标识损失，诸如图像修补和超分辨率。

如前所述，在原始GAN网络中的重构方面找到最佳反演映射可能被误导，因为对于真实图像生成器可能最佳的可能不是对于其它风格化生成器最佳的。相反，也优化用于将潜在编码的分布与原始StyleGAN2中的高斯潜在分布匹配的所学习的反演映射可以跨不同风格化生成器的范围产生更好的结果。换言之，在学习反演时匹配潜在分布导致跨不同风格的鲁棒嵌入，并且比针对真实图像的最佳重构嵌入更好。

图1描绘了用于利用潜在编码混合操作来获得所生成的图像的数据流过程100的示例。在示例中，两个或更多个图像编码过程可以被用来使用单独的潜在空间，将输入图像映射到两个单独的相应潜在编码中。例如，输入图像104可以被提供给第一编码器108A和/或第二编码器108B中的至少一者。编码器108A和108B中的一者可以将输入图像104编码为相应的第一和第二潜在编码112A和112B。第一和第二潜在编码112A和112B可以借助相应的多层感知器(MLP)f 116A和116B映射到相应的较少纠缠的W编码120A和120B。图像104可以被提供给另一编码器124。编码器124可以将输入图像104编码为潜在编码128。潜在编码128然后可以借助多层感知器(MLP)f 132映射到相应的较少纠缠的W编码136。潜在编码136以及潜在编码120A和/或120B中的至少一者可以在潜在编码混合器140处混合，从而生成潜在编码144。在示例中，混合量148可以在潜在编码混合器140处接收并且可以控制或影响在经预训练的模型124与模型108A和/或108B中的至少一者之间发生的混合量，从而控制或影响由潜在编码混合而产生的个性化相对于风格化的量。

在示例中，模型108A可以对应于被配置为生成潜在编码112A的模型。模型108A的示例可以包括Pixel2Style2Pixel(PSP)编码器。PSP编码器可以基于用于在若干真实图像转换任务中嵌入图像的专用标识损失，诸如图像修补和超分辨率。虽然PSP编码器可以被用于生成潜在编码，但部分由于潜在分布中不充分的一致性，由PSP编码器用于单域操纵和/或重构的过程可能不能直接应用于跨域生成。在示例中，模型108B可以对应于被配置为生成潜在编码112B的模型。模型108B的示例可以是优化编码器。优化编码器可以将潜在编码直接优化为将针对单个输入实例的逐像素重构损失最小化。在一些示例中，编码器108B可以是基于学习的并且利用通过将输入图像和合成图像之间的差最小化而训练的确定性模型。

在一些示例中，模型124可以对应于被配置为生成潜在编码128的StyleGAN2模型。在示例中，如在题为“使用分级变分编码器的高分辨率画像风格化框架(A High-Resolution Portrait Stylization Frameworks Using A Hierarchical VariationalEncoder)”的美国专利申请序列号17/321，384中进一步描述的，模型124可以利用确保潜在编码映射符合多变量高斯分布的分级变分自动编码器(hVAE)，针对其教导的所有内容以及针对所有目的，该专利申请的内容通过引用并入本文。因此，虽然模型124可以向所生成的输出图像提供更多的风格化组件，但是一个或多个模型108A和/或108B可以向所生成的输出图像提供更多的个性化组件。因此，个性化相对于风格化的量可以基于混合量148，在潜在编码混合器140处控制或以其他方式影响。如前所述，混合量148可以在潜在编码混合器140处接收并且可以控制或影响从潜在编码116A和/或116B和132提供的风格化和/或个性化的混合量。例如，在混合量指示将导致更多风格化的情况下，在生成经混合的潜在编码144时，潜在编码混合器140可以利用更多的潜在编码136或者以其他方式利用比潜在编码116A和/或116B更多权重的潜在编码136。在混合量指示将导致更多个性化的情况下，在生成经混合的潜在编码144时，潜在编码混合器140可以利用更多的潜在编码116A和/或116B，或者以其他方式利用比潜在编码136更多权重的潜在编码116A和/或116B。

在一些示例中，个性化相对于风格化的量可以是特定于潜在编码132和/或116A/116B的一部分并且可以在潜在编码混合器140处基于混合量148来控制或以其他方式影响。即，混合量148可以在潜在编码混合器140处接收并且可以控制或影响风格化和/或个性化针对潜在编码的特定部分的混合量。例如，在混合量指示将产生一个或多个风格化属性的情况下，在生成经混合的潜在编码144时，潜在编码混合器140可以为与一个或多个风格化属性相对应的潜在编码136的一部分赋予比潜在编码116A和/或116B的部分更大的权重。在混合量指示将产生一个或多个个性化属性的情况下，在生成经混合的潜在编码144时，潜在编码混合器140可以为与个性化属性相对应的潜在编码116A和/或116B的一部分赋予比潜在编码136的一部分更大的权重。

根据本公开的示例，迁移学习可以被用于训练风格化生成器156。因为艺术画像与真实画像共享明显的感知对应关系，所以在数据集上预训练的GAN模型可以提供用于微调风格化生成器156的初始化权重。因此，风格化生成器156可以使用来自经预训练的GAN生成器152的转移学习在较小的风格化数据集上进行微调。在一些示例中，生成器的一个或多个层可以与风格化生成器156的一个或多个层交换和/或混合。例如，经预训练的生成器中与经预训练的GAN生成器152相对应的一个或多个层可以与风格化生成器156的一个或多个层交换或混合，使得风格化生成器156可以针对一些特征，生成具有比风格化特性更强的个性化特性的输出图像。通过交换或混合GAN模型的层，当生成输出图像时，来自模型中的每一者的低分辨率和高分辨率特征可以被选择并使用。在示例中，混合量148还可以包括标识GAN生成器152的哪些层将被交换或以其他方式在风格化GAN生成器156中使用的指示。备选地或附加地，混合量148可以包括标识GAN生成器152的哪些层将与风格化GAN生成器156中经标识的层混合的指示。备选地或附加地，混合量148可以包括标识哪些特征将更多地被GAN生成器152影响的指示。根据本公开的示例，风格化GAN生成器156可以对潜在编码144进行采样或以其他方式接收潜在编码144并生成输出图像158。

图2描绘了根据本公开的示例的示例用户接口200。示例用户接口200可以包括诸如滑块的控件204，从而允许用户与控件204交互来提供风格化或个性化的量的指示。例如，GAN生成器，诸如GAN生成器156，可能更受控件204的位置208所指示的风格化的影响。在示例中，用户接口200可以包括所生成的个性化图像212的结果(例如，没有风格化的所有个性化)和风格化图像216的结果(例如，没有个性化的所有风格化)。图像220可以对应于如先前讨论的混合潜在编码和/或如先前讨论的并且对应于控件204的位置208的GAN生成器的交换或混合层的结果。

图3描绘了用于利用潜在编码混合操作来获得所生成的图像的数据流过程300的附加细节。数据流过程300可以与数据流过程100(图1)相同或相似。在示例数据流过程300中，两个或更多个图像编码过程(例如，312和316)可以被用于使用不同的潜在空间，将输入图像304映射到两个单独的相应潜在编码中。更具体地，输入图像304可以在预处理器306处被预处理，其中预处理器306将输入图像304扭曲和/或归一化为指定的分辨率。在一些示例中，分辨率可以是256×256。经扭曲和/或归一化的输入图像304可以被提供给被配置为基于输入而生成潜在编码的两个编码器。在示例中，第一编码器320可以接收经扭曲和/或归一化的输入图像304并将输入图像304编码为第一潜在编码324。在示例中，第一编码器320可以对应于如先前所讨论的StyleGAN网络编码器，诸如但不限于PSP编码器和/或优化编码器。编码器320可以生成潜在编码322；在示例中，用于生成潜在编码322的潜在空间可以包括多个层，每个层对应于不同的编码分辨率。因此，Z空间可以被称为具有潜在空间的多个堆叠层的Z+空间。潜在编码322然后可以被提供给多层感知器324，以使用W空间，将潜在编码322映射到较少纠缠的潜在编码326。类似于Z+空间，W空间可以包括多个层，使得W空间可以被称为W+。在示例中，潜在编码326可以被提供给潜在编码混合器336。

在示例中，第二编码器328可以接收经扭曲和/或归一化的输入图像304并将输入图像304编码为第二潜在编码330。在示例中，第二编码器328可以对应于如先前所讨论的分级变分自动编码器。编码器328可以使用潜在空间来生成潜在编码330；在示例中，潜在空间可以包括多个层，每个层对应于不同的编码分辨率。因此，Z空间可以被称为具有潜在空间的多个堆叠层的Z+空间。潜在编码330然后可以被提供给多层感知器332，以使用W空间，将潜在编码330映射到较少纠缠的潜在编码334。类似于Z+空间，W空间可以包括多个层，使得W空间可以被称为W+。在示例中，潜在编码334可以被提供给潜在编码混合器336。

虽然编码器328可以向所生成的输出图像提供更多的风格化组件，但编码器320可以向所生成的输出图像提供更多的个性化组件。因此，个性化相对于风格化的量可以基于混合量340，在潜在编码混合器336处控制或以其他方式影响。如前所述，混合量340可以在潜在编码混合器336处接收并且可以控制或影响从潜在编码326和334提供的风格化和/或个性化的混合量。例如，在混合量指示将产生更多风格化的情况下，在生成经混合的潜在编码342时，潜在编码混合器336可以利用更多的潜在编码334，或者以其他方式为潜在编码334赋予比潜在编码326更大的权重。在混合量指示将产生更多个性化的情况下，在生成经混合的潜在编码342时，潜在编码混合器336可以利用更多的潜在编码326，或者以其他方式为潜在编码326赋予比潜在编码334更大的权重。

在一些示例中，个性化相对于风格化的量可以是特定于潜在编码326和/或334的一部分的并且可以在潜在编码混合器336处基于混合量340来控制或以其他方式影响。即，混合量340可以在潜在编码混合器336处接收并且可以控制或影响风格化和/或个性化针对潜在编码的特定部分的混合量。例如，在混合量指示产生一个或多个风格化属性的情况下，在生成经混合的潜在编码342时，潜在编码混合器336可以为与一个或多个风格化属性相对应的潜在编码334的一部分赋予比潜在编码326的一部分更大的权重。在混合量指示产生一个或多个个性化属性的情况下，在生成经混合的潜在编码342时，潜在编码混合器336可以为与个性化属性相对应的潜在编码326的一部分赋予比潜在编码334的一部分更大的权重。

根据本公开的示例，生成器344可以对经混合的潜在编码342采样或以其他方式接收经混合的潜在编码342并基于经混合的潜在编码342，生成最终图像350。在示例中，迁移学习可以被用于训练生成器344，其中生成器344可以包括风格化生成器348。因此，生成器344可以使用来自经预训练的GAN生成器346的转移学习，在较小的风格化数据集上进行微调。在一些示例中，生成器344可以包括来自经预训练的GAN生成器346的层。即，生成器344可以包括来自经预训练的GAN生成器346的层和来自使用迁移学习训练的风格化生成器348的层。

因此，经预训练的生成器中与经预训练的GAN生成器346相对应的一个或多个层和风格化生成器348的一个或多个层可以被包括在生成器344中，使得生成器344可以针对某些特征，生成具有比风格化特性更强的个性化特性的输出图像。在一些示例中，生成器344可以通过将风格化生成器348的层交换为原始生成器346的层或与原始生成器346的层混合来获得。在一些示例中，在生成输出图像时，来自模型(例如，346和348)中的每一者的低分辨率和高分辨率特征可以被选择并使用。在示例中，混合量340还可以包括标识GAN生成器346的哪些层将被包括在生成器344中以及风格化GAN生成器348的哪些层将被包括在生成器344中的指示。在一些示例中，代替包括来自GAN生成器346或风格化GAN生成器348的层，混合量340可以指示来自模型(例如，346和348)中的每一者的每个层的多少将被混合。备选地或附加地，混合量340可以包括标识与一个或多个层相对应的哪些特征将更多地被GAN生成器346或风格化生成器348影响的指示。因此，生成器344可以对潜在编码342进行采样或以其他方式接收潜在编码342并生成输出图像350。

图4是图示了可以实践本公开的各方面的计算系统400的物理组件(例如，硬件)的框图。以下描述的计算设备组件可以适用于上述计算和/或处理设备。在基本配置中，计算系统400可以包括至少一个处理单元402和系统存储器404。根据计算设备的配置和类型，系统存储器404可以包括但不限于易失性存储装置(例如，随机存取存储器(RAM))、非易失性存储装置(例如，只读存储器(ROM))、闪存或这些存储器的任何组合。

系统存储器404可以包括操作系统405和适于运行软件应用程序420的一个或多个程序模块406，诸如本文所述的系统所支持的一个或多个组件。作为示例，系统存储器404可以包括第一编码器421、第二编码器422、潜在编码混合器423和/或GAN生成器424。第一编码器421可以与前述的编码器108A、108B和/或320相同或相似。第二编码器422可以与前述的编码器124和/或编码器328相同或相似。潜在编码混合器可以与如前所述的潜在编码混合器140和/或336相同或相似。GAN生成器可以与前述GAN生成器156和/或344相同或相似。操作系统405例如可以适于控制计算系统400的操作。

此外，本发明的实施例可以结合图形库、其它操作系统或任何其它应用程序来实践且不限于任何特定应用或系统。该基本配置在图4中由虚线408内的那些组件图示。计算系统400可以具有附加特征或功能。例如，计算系统400还可以包括附加的数据存储设备(可移动和/或不可移动)，诸如例如磁盘、光盘或磁带。这样的附加存储装置在图4中由可移动存储设备409和不可移动存储设备410图示。

如上所述，若干程序模块和数据文件可以被存储在系统存储器404中。当在处理单元402上执行时，程序模块406(例如，软件应用程序420)可以执行包括但不限于本文所述的各方面的过程。根据本公开的各方面，可以使用其它程序模块。

此外，本公开的示例可以在电气电路分立电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路或包含电子元件或微处理器的单个芯片上实践。例如，本公开的实施例可以经由片上系统(SOC)来实践，其中图4中所图示的组件中的每一者或多者可以被集成到单个集成电路上。这样的SOC设备可以包括作为单个集成电路集成(或“烧录”)到芯片衬底上的一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能。当经由SOC操作时，本文相对于客户端切换协议的能力所描述的功能可以经由与计算系统400的其它组件集成在单个集成电路(芯片)上的专用逻辑来操作。本公开的实施例还可以使用能够执行逻辑运算(诸如例如，与(AND)、或(OR)和非(NOT))的其它技术来实践，包括(但不限于)机械、光学、流体及量子技术。附加地，本公开的实施例可以在通用计算机内或在任何其它电路或系统中实践。

计算系统400还可以具有一个或多个输入设备412，诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。一个或多个输入设备412可以包括图像传感器。还可以包括诸如显示器、扬声器、打印机的(多个)输出设备414。上述设备是示例并且可以使用其他设备。计算系统400可以包括允许与如图4所示的其它计算设备/系统450通信的一个或多个通信连接416。合适的通信连接416的示例包括但不限于射频(RF)发射机、接收机和/或收发机电路装置；通用串行总线(USB)、并行和/或串行端口。

本文中所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构或程序模块等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储设备409和不可移动存储设备410均是计算机存储介质示例(例如，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储装置、磁带盒、磁带、磁盘存储装置或其它磁存储设备，或者可以被用于存储信息并且可以由计算系统400访问的任何其它制品。任何这样的计算机存储介质可以是计算系统400的一部分。计算机存储介质不包括载波或其它传播的或调制的数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或诸如载波的调制数据信号中的其他数据或其它传输机制来实现，并且包括任何信息传递介质。术语“调制数据信号”可以描述具有以在信号中编码信息的方式设置或改变的一个或多个特性的信号。作为示例而非限制，通信介质可以包括诸如有线网络或直接线连接的有线介质，以及诸如声学、射频(RF)、红外的无线介质和其它无线介质。

图5图示了用于处理在计算系统处从诸如个人计算机504、平板计算设备506或移动计算设备508等远程源接收的数据的系统架构的一个方面。个人计算机504、平板计算设备506或移动计算设备508可以包括一个或多个应用程序520；这样的应用程序可以包括但不限于第一编码器421、第二编码器422、潜在编码混合器423和/或GAN生成器424。服务器设备502处的内容可以被存储在不同通信信道或其它存储装置类型中。例如，各种文档可以使用目录服务、web门户、风格化图像服务、即时消息传递存储或社交网络服务来存储。

如前所述的程序模块406或软件应用程序420中的一个或多个可以由如前所述的服务器设备502和/或个人计算机504、平板计算设备506或移动计算设备508来采用。例如，服务器设备502可以包括先前描述的第一编码器421、第二编码器422、潜在编码混合器423和/或GAN生成器424。

服务器设备502可以借助网络515，向和从诸如个人计算机504、平板计算设备506和/或移动计算设备508(例如，智能电话)的客户端计算设备提供数据。作为示例，上述计算机系统可以被体现在个人计算机504、平板计算设备506和/或移动计算设备508(例如，智能电话)中。除了接收可用于在图形产生系统处预处理或在接收计算系统处后处理的图形数据之外，计算设备的这些示例中的任一者可以从存储库516获得内容。

附加地，本文所述的各方面和功能可以在分布式系统(例如，基于云的计算系统)上操作，其中应用功能、存储器、数据存储装置和检索以及各种处理功能可以在诸如因特网或内联网的分布式计算网络之上彼此远程地操作。各种类型的用户接口和信息可以经由机载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示。例如，各种类型的用户接口和信息可以在墙壁表面上显示和交互，各种类型的用户接口和信息被投影在墙壁表面上。与可以实践本发明的实施例的众多计算系统的交互包括键击输入、触摸屏输入、语音或其它音频输入、相关联的计算设备配备有用于捕捉和解释用户手势来控制计算设备的功能的检测(例如，相机)功能的手势输入等。

图6描绘了根据本公开的示例的用于控制风格化画像与原始照片之间的相似度的示例性方法600。图6中示出了方法600的步骤的一般顺序。通常，方法600在602处开始并在612处结束。方法600可以包括更多或更少的步骤或者可以与图6所示的步骤不同地布置步骤的顺序。方法600可以作为由计算机系统执行并在计算机可读介质上编码或存储的计算机可执行指令集来执行。在示例中，方法600的各方面由诸如计算机或服务器的一个或多个处理设备来执行。此外，方法600可以由与处理器相关联的门或电路、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)、神经处理单元或其它硬件设备来执行。在下文中，将参考结合图1-图5描述的系统、组件、模块、软件、数据结构、用户接口等来解释方法600。

方法600在602处开始，在602处，流程可以进行到604。在604处，输入图像可以被接收。例如，用户可以提供输入图像和/或系统可以从存储位置选择输入图像。在606处，混合量可以被接收。在示例中，混合量可以对应于例如由潜在编码混合器混合的潜在编码的量。在一些示例中，潜在编码混合量可以对应于一个或多个具体特征；在一些示例中，混合量可以对应于风格化相对于个性化的量。例如，与控件(诸如控件204(图2))相关联的值可以在606处被接收。在608处，输入图像可以如前所述进行预处理。

方法可以进行到610，在610处，经预处理的输入图像可以被提供给第一编码器，并且第一编码器可以使用第一潜在空间，将输入图像编码为第一潜在编码或代码。在示例中，第一编码器可以对应于如先前所讨论的StyleGAN网络编码器，例如但不限于PSP编码器和/或优化编码器。第一编码器可以生成与第一潜在空间相对应的第一编码或代码；在示例中，第一潜在空间可以包括多个层，每个层对应于不同的编码分辨率。因此，Z空间可以被称为具有第一潜在空间的多个堆叠层的Z+空间。在612处，由第一编码器生成的潜在编码或代码可以被提供给第一多层感知器并被映射到被称为W空间的第一较少纠缠的潜在空间中的第一编码或代码。类似于Z+空间，W空间可以包括多个层，使得W空间可以被称为W+。在示例中，来自W或W+空间的第一映射编码或代码可以在614处被提供给潜在编码混合器。

方法600可以类似地进行到616，在616处，经预处理的输入图像可以被提供给第二编码器，使得第二编码器使用第二潜在空间，将输入图像编码为第二潜在空间编码或代码。在示例中，第二编码器可以对应于如前所述的分级变分自动编码器。第二编码器可以生成与第二潜在空间相对应的第二编码或代码；在示例中，第二潜在空间可以包括多个层，每个层对应于不同的编码分辨率。因此，Z空间可以被称为具有第二潜在空间的多个堆叠层的Z+空间。在618处，由第二编码器生成的潜在编码或代码可以被提供给第二多层感知器并被映射到被称为W空间的第二较少纠缠的潜在空间中的第二编码或代码。与Z+空间类似，W空间可以包括多个层，使得W空间可以被称为W+。在示例中，来自W或W+空间的第二映射编码或代码可以在620处被提供给潜在编码混合器。

在622处，潜在编码混合器可以将第一映射编码或代码与第二映射编码或代码混合。虽然第二编码器可以向所生成的输出图像提供更多的风格化组件，但是第一编码器可以向所生成的输出图像提供更多的个性化组件。因此，基于在606处接收的混合量，个性化相对于风格化的量可以在潜在编码混合器处控制或以其他方式影响。如前所述，混合量可以在潜在编码混合器处接收，并且可以控制或影响基于第一和第二映射编码或代码提供的风格化和/或个性化的混合量。

根据本公开的示例，基于在606处接收的混合量，GAN生成器的一个或多个层和风格化生成器的一个或多个层可以如前所述进行交换和/或混合。如前所述，经预训练的GAN生成器的层可以基于混合量在624处被组装。在一些示例中，不需要混合，并且生成器是从另一GAN生成器利用迁移学习而训练并且使用风格化数据集进行微调的经预训练的GAN风格化生成器。在一些示例中，不需要混合，并且生成器是在全数据集上训练的经预训练的GAN生成器。在其他示例中，风格化GAN生成器的一个或多个层可以使用在全数据集上训练的经预训练的GAN生成器的一个或多个层来代替。在626处，输出图像可以由具有如上提供的指定层的GAN生成器生成。方法600然后可以在628处结束。

附加地，本文所述的各方面和功能可以在分布式系统(例如，基于云的计算系统)上操作，其中应用程序功能、存储器、数据存储装置和检索以及各种处理功能可以在诸如因特网或内联网的分布式计算网络上彼此远程地操作。各种类型的用户接口和信息可以经由机载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示。例如，各种类型的用户接口和信息可以在墙壁表面上显示和交互，各种类型的用户接口和信息被投影在墙壁表面上。与可以实践本发明的各实施例的众多计算系统的交互包括键击输入、触摸屏输入、语音或其它音频输入、相关联的计算设备配备有用于捕捉和解释用户手势来控制计算设备的功能的检测(例如，相机)功能的手势输入等。

本公开涉及用于至少根据以下部分中提供的示例来生成风格化图像的系统和方法：

(A1)在一个方面，一些示例包括用于生成风格化图像的方法。方法可以包括：接收输入图像；使用第一编码器，基于输入图像，生成第一潜在编码；使用第二编码器，基于输入图像，生成第二潜在编码；将第一潜在编码和第二潜在编码混合来获得经混合的潜在编码；通过生成对抗网络生成器，基于经混合的潜在编码来生成风格化图像；以及提供风格化图像作为输出。

(A2)在A1的一些示例中，方法进一步包括：接收指示将第一潜在编码与第二潜在编码混合的量的混合参数。

(A3)在A1-A2的一些示例中，方法进一步包括：接收指示将要在GAN生成器中使用的、第一经预训练的GAN生成器的一个或多个层的混合参数；基于混合参数和经预训练的GAN生成器的一个或多个层来组装GAN生成器；以及使用经组装的GAN生成器，生成风格化图像。

(A4)在A1-A3的一些示例中，GAN生成器是从第一经预训练的GAN生成器经由迁移学习而训练的经训练的GAN生成器。

(A5)在A1-A4的一些示例中，第一编码器是PSP编码器。

(A6)在A1-A5的一些示例中，第二编码器是变分分级自动编码器。

(A7)在A1-A6的一些示例中，方法进一步包括：从第一多层感知器生成第一潜在编码；以及从第二多层感知器生成第二潜在编码。

在又一方面，一些示例包括计算系统，计算系统包括一个或多个处理器以及与一个或多个处理器耦合的存储器，存储器存储一个或多个指令，一个或多个指令在由一个或多个处理器执行时，使得一个或多个处理器执行本文中描述的方法中的任一者(例如，以上描述的A1-A7)。

在又一方面，一些示例包括存储用于由存储设备的一个或多个处理器执行的一个或多个程序的非暂时性计算机可读存储介质，一个或多个程序包括用于执行本文所述的方法中的任一者(例如，上述A1-A7)的指令。

实现本文中所公开的方法和系统的优点包括基于经预训练的GAN生成器，产生具有可变数量结构的经混合和风格化的图像的能力。因此，风格化相对于个性化的量可以影响最终生成的图像。

例如，以上参考根据本公开的各方面的方法、系统和计算机程序产品的框图和/或操作图示来描述本公开的各方面。框中指出的功能/动作可以不按任何流程图中所示的顺序发生。例如，根据所涉及的功能/动作，连续示出的两个框实际上可以基本上同时执行，或者框有时可以以相反的顺序执行。

本申请中提供的一个或多个方面的描述和图示不旨在以任何方式限制或约束所要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使得其他人能够制作和使用所要求保护的本公开的最佳模式。所要求保护的本公开不应被解释为限于本申请中提供的任何方面、示例或细节。不管是组合还是单独示出和描述，各种特征(结构和方法)旨在被选择性地包括或省略来产生具有特定特征集的实施例。已提供了本申请的描述和图示，本领域技术人员可以设想不脱离所要求保护的本公开的更宽范围、落入本申请中体现的总体发明构思的更宽方面的精神内的变化、修改和备选方面。

Claims

1.一种用于生成风格化图像的方法，所述方法包括：

接收输入图像；

使用第一编码器，基于所述输入图像，生成第一潜在编码；

使用第二编码器，基于所述输入图像，生成第二潜在编码；

将所述第一潜在编码和所述第二潜在编码混合来获得经混合的潜在编码；

通过生成对抗网络GAN生成器，基于所述经混合的潜在编码，生成风格化图像；以及

提供所述风格化图像作为输出。

2.根据权利要求1所述的方法，进一步包括：

接收指示将所述第一潜在编码与所述第二潜在编码混合的量的混合参数。

3.根据权利要求2所述的方法，进一步包括：

接收指示将要在所述GAN生成器中使用的、第一经预训练的GAN生成器的一个或多个层的混合参数；

基于所述混合参数和所述经预训练的GAN生成器的所述一个或多个层来组装所述GAN生成器；以及

使用经组装的所述GAN生成器，生成所述风格化图像。

4.根据权利要求3所述的方法，其中所述GAN生成器是从所述第一经预训练的GAN生成器经由迁移学习而训练的经训练的GAN生成器。

5.根据权利要求1所述的方法，其中所述第一编码器是PSP编码器。

6.根据权利要求1所述的方法，其中所述第二编码器是变分分级自动编码器。

7.根据权利要求1所述的方法，进一步包括：

从第一多层感知器生成所述第一潜在编码；以及

从第二多层感知器生成所述第二潜在编码。

8.一种系统，包括：

一个或多个硬件处理器，由机器可读指令配置为：

接收输入图像；

使用第一编码器，基于所述输入图像，生成第一潜在编码；

使用第二编码器，基于所述输入图像，生成第二潜在编码；

通过生成对抗网络生成器，基于所述经混合的潜在编码，生成风格化图像；以及

提供所述风格化图像作为输出。

9.根据权利要求8所述的系统，其中所述一个或多个硬件处理器还由机器可读指令配置为：接收指示将所述第一潜在编码与所述第二潜在编码混合的量的混合参数。

10.根据权利要求9所述的系统，其中所述一个或多个硬件处理器还由机器可读指令配置为：

使用经组装的所述GAN生成器，生成所述风格化图像。

11.根据权利要求10所述的系统，其中所述GAN生成器是从所述第一经预训练的GAN生成器经由迁移学习而训练的经训练的GAN生成器。

12.根据权利要求8所述的系统，其中所述第一编码器是PSP编码器。

13.根据权利要求8所述的系统，其中所述第二编码器是变分分级自动编码器。

14.根据权利要求8所述的系统，其中所述一个或多个硬件处理器还由机器可读指令配置为：

从第一多层感知器生成所述第一潜在编码；以及

从第二多层感知器生成所述第二潜在编码。

15.一种计算机可读存储介质，包括指令，所述指令在由一个或多个处理器执行时，使得所述一个或多个处理器：

接收输入图像；

使用第一编码器，基于所述输入图像，生成第一潜在编码；

使用第二编码器，基于所述输入图像，生成第二潜在编码；

提供所述风格化图像作为输出。

16.根据权利要求15所述的计算机可读存储介质，其中所述指令在由所述一个或多个处理器执行时，使得所述一个或多个处理器：接收指示将所述第一潜在编码与所述第二潜在编码混合的量的混合参数。

17.根据权利要求16所述的计算机可读存储介质，其中所述指令在由所述一个或多个处理器执行时，使得所述一个或多个处理器：

使用经组装的所述GAN生成器，生成所述风格化图像。

18.根据权利要求17所述的计算机可读存储介质，其中所述GAN生成器是从所述第一经预训练的GAN生成器经由迁移学习而训练的经训练的GAN生成器。

19.根据权利要求15所述的计算机可读存储介质，其中所述第二编码器是变分分级自动编码器。

20.根据权利要求15所述的计算机可读存储介质，其中所述指令在由所述一个或多个处理器执行时，使得所述一个或多个处理器：

从第一多层感知器生成所述第一潜在编码；以及

从第二多层感知器生成所述第二潜在编码。