CN111968191A

CN111968191A - 使用梳状神经网络架构的自动图像合成

Info

Publication number: CN111968191A
Application number: CN202010429592.4A
Authority: CN
Inventors: J·纳伦涅茨; R·韦伯; C·施罗尔斯
Original assignee: Disney Enterprises Inc
Current assignee: Disney Enterprises Inc
Priority date: 2019-05-20
Filing date: 2020-05-20
Publication date: 2020-11-20
Anticipated expiration: 2040-05-20
Also published as: GB2586319A; GB202007405D0; GB2586319B

Abstract

一种图像合成系统，其包括计算平台，具有硬件处理器和存储软件代码的系统存储器，软件代码包括神经编码器和分别对应于多个角色中的相应角色的多个神经解码器。硬件处理器配置为执行软件代码以：接收目标图像数据和源数据，源数据标识多个角色中的一个；使用神经编码器将目标图像数据映射至目标图像数据的隐空间表示；基于由源数据标识的多个角色之一，标识多个神经解码器之一，以用于对目标图像数据的隐空间表示进行解码；使用多个神经解码器中所标识的一个神经解码器，将目标图像数据的隐空间表示解码为由源数据标识的多个角色之一，以产生交换图像数据；以及，将交换的图像数据与目标图像数据融合，以生成一个或多个合成图像。

Description

使用梳状神经网络架构的自动图像合成

相关申请的交叉引用

本申请要求于2019年5月20日提交的、标题为“用于高分辨率、多对象脸部交换的梳状网络(Comb Networks for High-Resolution,Multi-Subject Face Swapping)”的美国临时专利申请No.62/850,439的权益和优先权，在此通过引用将其全部内容并入本申请。

背景技术

将视觉图像从源域转移到目标域是视觉效果中的重要问题。这种图像转移的一种示例性应用是将目标表演者的表演转移至源演员，当该源演员去世或必须扮演不同年龄的角色时，这是必要的。

不足的是，执行图像转移的许多常规方法会生成带有大量伪像的低分辨率图像。尽管存在能够生成更高分辨率图像的技术，但它们通常需要耗时且费力的人工处理，并且需要仔细地对拍摄场景进行结构化处理、将物理特征点放置在目标表演者身上以及将计算机生成的相似图像手动匹配到目标表演者的脸上。此外，尽管使用这种手动且昂贵的方法可获得更高的分辨率，但通常仍会存在奇怪的美术效果。

发明内容

本文公开了提供了使用梳状神经网络架构来执行自动图像合成的系统和方法，其基本上如结合至少一个附图所示和/或所描述的那样，并且在权利要求中将有更完整的阐述。

附图说明

图1示出了根据一实施方案的示例性系统图，其中该系统使用梳状神经网络架构执行自动图像合成；

图2示出了根据一实施方案的适用于图1所示系统的示例性图像合成软件代码；

图3A示出了根据一实施方案的神经编码器的实现细节，其中该神经编码器适合包含于图2所示的图像合成软件代码；

图3B示出了根据一实施方案的多个神经编码器中的任意一个的实现细节，其中该多个神经编码器适合包含于图2所示的图像合成软件代码；

图4示出了流程图，该流程图示出了根据一实施方案的使用梳状神经网络架构执行自动图像合成的示例性方法；以及

图5示出了根据一实施方案的用于执行自动图像合成的示例性算法的伪代码。

具体实施方案

以下描述包含与本公开中的实施方案有关的特定信息。本领域的技术人员将认识到，可以以不同于与本文具体讨论的方式来实现本公开。本申请的附图及其随附的详细描述仅针对示例性实施方案。除非另有说明，否则附图中相同或相应的元件由相同或相应的附图标记表示。并且，本申请中的附图和图示通常不按比例绘制且不旨在对应于实际的相对尺寸。

本申请公开了一种使用基本上无监督的深度学习模型来执行自动图像合成的系统和方法，其中该深度学习模型使用梳状神经网络架构。本解决方案不需要对目标图像和源图像进行成对的观察，这些目标图像和源图像可以是静态图像或视频序列，这些静态图像或视频序列之后能够被自动处理和对准。本文公开的深度学习模型采用梳状架构，用于在共享的隐空间(latent space)中对目标图像和源图像进行编码，并且该深度学习模型随后拆分成多个专门的神经解码器，其中一个用于目标并且一个用于源。例如，当将目标演员的表演转移到源表演者时，对目标图像进行编码，然后将其解码为源图像，从而创建具有源表演者的外貌并能够匹配目标演员的表演的图像。

即，本申请旨在公开一种模型，该模型经过训练能够将源演员的身体特征(例如声音、身体构造和脸部特征)转移到目标演员的行为表演上。因此，本文中所使用的“源”提供了合成图像的身份，而“目标”提供了该合成图像(看起来像是源演员的图像)执行的行为。

本图像合成解决方案利用渐进式训练方案来训练深度学习模型。该渐进式训练是从低分辨率图像开始的，然后逐步训练到高分辨率图像。本申请中公开的渐进式训练方案不仅加快了训练速度，而且还有利地使本解决方案大大超过了传统技术所能达到的分辨率。此外，本解决方案能够与风格匹配约束(style-matching constraints)结合并且利用图像融合增强生成自然的相貌，这在很大程度上避免了伪像。

应当注意，如在本申请中使用的，术语“自动化”、“自动的”和“自动地”是指系统和过程是不需要人类用户(例如人类编辑者或艺术家)参与的。尽管在一些实施方案中，人类编辑者或艺术家可以查看由自动化系统根据本文所述的自动化方法产生的合成图像，但是人类的参与是可选的。因此，本申请中描述的方法可以在本公开的自动化系统的硬件处理组件的控制下执行。

还需要注意的是，如本申请中所定义的，神经网络(NN)，也被称为人工神经网络(ANN)，指的是一种机器学习框架，在其中能够使用高度关联的计算层(这些计算层用于映射输入和输出之间的关系)来处理观察到的数据的模式或学习后的表示。在深度学习的上下文中，“深度神经网络”指的是利用输入层和输出层之间的多个隐藏层的神经网络，这可以允许基于未在原始数据中被明确定义的特征进行学习。“在线深度学习”指的是一种深度学习方式，其中，机器学习模型使用传入的数据流进行更新，并且被设计为随着新数据的接收和/或适应动态系统的新模式而逐步提高其在特定任务中的性能。因此，各种类型的人工神经网络(ANN)可以被使用以基于过去的样本或“训练数据”来对新数据作出预测。在各种实施方案中，人工神经网络可以用于执行图像处理或自然语言处理。

图1示出了根据一实施方案的示例性系统图，其中该系统使用梳状神经网络架构执行自动图像合成。如图1所示，图像合成系统100包括：计算平台102，该计算平台102具有硬件处理器104；系统存储器106，该系统存储器106被实现为非临时性存储设备，用于存储图像合成软件代码110；以及包括显示器108。值得注意的是，该显示器108可以被实现为液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器或能够执行信号到光的物理转换的另一种合适的显示器。

注意，如图2所示以及参考下文描述，图像合成软件代码110能够实现一个梳状神经网络架构，该梳状神经网络架构被配置为在自动化过程中产生一个或多个合成图像138(下文中称为“(多个)合成图像138”)。如图1进一步所示，图像合成系统100在一使用环境中实现，该使用环境包括提供源数据126的源数据提供者124、提供训练数据142的训练平台140、表演场地148以及通信网络120。

附图示出的表演场地148包括目标表演者134和用于拍取目标图像数据132的相机130。该相机130可以例如包括，一个或多个静态图像红-绿-蓝(RGB)相机和/或一个或多个RGB视频相机。在图1中，还示出了网络通信链路122，其通过通信网络120将源数据提供者124、训练平台140、和相机130通信地连接至图像合成系统100。值得注意的是，尽管图像合成系统100可经由通信网络120和网络通信链路122接收源数据提供者124提供的源数据126，但是在一些实施方案中，源数据提供者124可以是以源数据数据库的形式呈现，其与计算平台102集成连接，或者可以如虚线通信链路128所示与图像合成系统100直接通信。

当计算平台102的硬件处理器104执行图像合成软件代码110时，该图像合成软件代码110被配置为基于目标图像数据132和源数据126产生(多个)合成图像138。注意，尽管为了概念上的清楚，本申请将图像合成软件代码110称为存储在系统存储器106中，但是更一般地，系统存储器106可以是任何计算机可读的非暂时性存储介质。

如在本申请中使用的表述，“计算机可读的非暂时性存储介质”指的是除了载波或其他暂时性信号外的、向计算平台102的硬件处理器104提供指令的任何介质。因此，计算机可读的非暂时性介质可以对应于各种类型的介质，例如，易失性介质和非易失性介质。易失性介质可以包括动态存储器，例如动态随机存取存储器(动态RAM)，而非易失性存储器可以包括光学、磁性或静电存储设备。例如，计算机可读非暂时性介质的常见形式包括：光盘、RAM、可编程只读存储器(PROM)、可擦除PROM(EPROM)以及闪存存储器。

还应注意，尽管图1将训练平台140描绘为远离图像合成系统100的计算机平台，但是该表示仅仅是示例性的。更一般地，图像合成系统100可以包括一个或多个计算平台，例如多个计算机服务器，它们例如可以形成交互链接但分布式的系统，例如基于云的系统。结果，硬件处理器104和系统存储器106可以对应于图像合成系统100内的分布式处理器和存储器资源，而训练平台140可以是图像合成系统100的组件或者可以被实现为存储在系统存储器106中的软件模块。在这样的实施方案中，图像合成系统100的计算平台102可对应于一个或多个Web服务器，这些Web服务器可以例如通过诸如Internet之类的分组交换网络进行访问。可选地，计算平台102可对应于支持广域网(WAN)、局域网(LAN)或包括在另一种类型的有限分布式或专用式网络中的一个或多个计算机服务器。

还应注意，尽管以下参考了特定的使用案例来描述本发明的原理，在该特定的使用案例中，源人脸的外貌被转移到目标行为者的表演上，也称为“脸部交换”，出于概念清晰的目的，该实施方案将在下文中讨论，但并非旨在限制所公开概念的范围。除了其对诸如换脸之类的视觉效果的适用性之外，本解决方案还应用于更广泛的领域--从数据中学习解缠结表示(disentangled representation)。特别地，本解决方案成功地将关于动态行为的信息(例如，经过编码的脸部表演或内容)从静态信息(例如，脸部或风格的标识)中分离出来而不需要顺序排列的数据或明确的序列模型。

对于该换脸的示例性用例，标准的脸部交换应用程序通常将具有单个目标和单个源。在编码器-解码器框架中，这导致四种可能的编码路径：(1)目标到目标；(2)源到源；(3)目标到源；以及(4)源到目标。本图像合成解决方案将这种方法推广到P个身份或角色(以下称为“角色”)，从而在单个模型中能够产生P²个可能的编码路径。

作为概述，本解决方案以以下方式进行转换：使用公共编码器将来自所有P个角色的图像嵌入到共享的隐空间中。然后使用P个专用解码器将这些嵌入的图像映射回像素空间，其中对应于各个角色的每个专用解码器均具有一隐空间表示。换句话说，第p个解码器用于创建第p个角色的图像。当进入编码器的角色与解码器的分配相匹配时，编码路径与标准自动编码器的编码路径相同。当角色不同时，将执行人脸交换。

图2示出了根据一实施方案的示例性图像合成软件代码210，该图像合成软件代码210适于由图1所示的图像合成系统100使用。如图2所示，图像合成软件代码210包括图像接收和预处理模块212、以及被实现为ANN的神经编码器214。进一步地，图像合成软件代码210包括多个神经解码器216(1)、216(2)、……、216(p-1)、16(p)，它们被实现为各个ANN，其中P是大于1的整数(P>1)(以下称为“神经解码器216(1)-216(p)”)；以及合成模块218。因此，图像合成软件代码210的神经解码器216(1)-216(p)包括至少两个神经解码器。此外，在一些实施方案中，图像合成软件代码210的神经解码器216(1)-216(p)包括至少三个神经解码器，并且可以包括数十甚至数百个神经解码器，它们耦合连接至共享神经编码器214。

此外，图2示出了源数据226和目标图像数据232，它们被接收作为图像合成软件代码210的输入，以及示出了一个或多个合成图像238(以下称为“(多个)合成图像238”)，其作为图像合成软件代码210的输出。在图2中还示出了到神经编码器214的输入236(以下称为“输入图像236”)，其包括：目标图像数据232和源数据226(标识与多个神经解码器216(1)-216(p)中的其中一个相对应的角色)；隐向量244，该隐向量244携带目标图像数据232的隐空间表示；以及交换图像数据246，该交换图像数据246是由神经解码器216(p-1)、216(p)之一(例如神经解码器216(2))基于隐向量244而产生的。值得注意的是，如图2所示，尽管在多个神经解码器216(1)-216(p)中仅有其中一个神经解码器从神经编码器214接收隐向量244，但是该多个神经解码器216(1)-216(p)为并联地耦合连接至神经编码器214的输出。

源数据226、目标图像数据232、图像合成软件代码210和(多个)合成图像238通常分别对应于图1中的源数据126、目标图像数据132、图像合成软件代码110和(多个)合成图像138。也就是说，源数据126、目标图像数据132、图像合成软件代码110和(多个)合成图像138可以对应地共享属于本公开的源数据226、目标图像数据232、图像合成软件代码210和(多个)合成图像238的任何特征，反之亦然。因此，尽管未在图1中示出，但是图像合成软件代码110可以包括分别对应于图像接收和预处理模块212、神经编码器214、神经解码器216(1)-216(p)以及合成模块218的各个特征。

应当注意，神经编码器214和多个神经解码器216(1)-216(p)形成梳状神经网络架构，在该梳状神经网络架构中可以选择性地将由神经编码器214编码并输出的隐向量244作为输入提供给若干个神经解码器216(1)-216(p)中的任意一个。在一些用例中，例如，可以使用以卷积神经网络(CNN)形式呈现的ANN来实现神经编码器214和各个神经解码器216(1)-216(p)。

图3A示出了根据一实施方案的CNN编码器314的实现细节，图3B示出了示例性CNN解码器316的实现细节。如图3A和图3B所示，CNN编码器314接收输入图像336并输出隐向量344，该隐向量344将作为CNN解码器316的输入。

CNN编码器314、输入图像336和隐向量344通常分别对应于图2中的神经编码器214、输入图像236和隐向量244，而CNN解码器316通常对应于各个神经解码器216(1)-216(p)。也就是说，神经编码器214、输入图像236和隐向量244可以对应地共享属于本公开的CNN编码器314、输入图像336和隐向量344的任何特征，反之亦然。此外，神经解码器216(1)-216(p)中的每一个均可以共享属于本公开的CNN解码器316的任何特征，反之亦然。值得注意的是，在一些实施方案中，可以将泄漏整流线性单元(LeakyReLU)(参见图3A和图3B)的参数“α”(以下称为“α_ReLU”)设置为α_ReLU＝0.2。

下文将结合图1、图2、图3A和图3B，参考图4进一步地描述包括图像合成软件代码110/210的图像合成系统100的功能。图4示出了流程图450，其示出了示例性方法，该示例性方法供系统使用以利用梳状神经网络架构执行自动图像合成。关于图4中概述的方法，要注意的是，流程图450省略了某些细节和特征，以便清楚地讨论本申请中的创造性特征。

首先，使用训练平台140和训练数据142，对包括神经编码器214/314和神经解码器216(1)-216(p)/316的图像合成软件代码110/210进行训练。如上所述，使用渐进式训练方法来训练由图像合成软件代码110/210实现的梳状神经网络架构的各个层或块。

起初，渐进式训练开始训练非常低分辨率的图像，例如4×4像素的图像，以便定向该网络，然后当更高分辨率的图像被用于训练时逐渐将网络的容量扩大。对于渐进式训练的每一层，都会添加新的网络层，即，该层由以下组合形成：两个卷积层以及分别在神经编码器214/314和神经解码器216(1)-216(p)/316中的比例缩小的层或比例放大的层。换句话说，对神经编码器214/314和神经解码器216(1)-216(p)/316进行渐进式训练，先从低分辨率训练数据142开始，并逐步以更高分辨率的训练数据142继续训练直到合成能够满足预定分辨率阈值的训练输出图像。

可以通过增益参数(α∈[0，1])来衰减因添加新的、未经训练的网络组件而引起的对网络的干扰，该增益参数充当渐变开关(fader switch)，其能够逐渐地将新的网络组件的激活与已训练的、较小网络的网络组件的激活融合在一起。根据一些实施方案中，在该梳状架构中，每个神经解码器216(1)-216(p)/316是跟随着神经编码器214/314逐渐增长的。在一实施方案中，在该前两个阶段的增长期间，其对应于神经编码器214/314和神经解码器216(1)-216(p)/316的前两个编码器层和解码器层，关联了解码器权重以实现隐空间的一致性。

因此，神经解码器216(1)-216(p)/316中的每个均包括若干个解码器层，这些解码器层各自与一权重因子相关联，其中与一些解码器层(例如第一和第二解码器层)相对应的权重因子，它们在所有神经解码器216(1)-216(p)/316中均是被关联在一起的。在那些实施方案中，解码器权重可以独立于第三层来训练。相同的融合权重α可以在全部的P个神经解码器上使用。

训练数据142可以被分割成P个子集，其中每个子集分别代表对应于神经解码器216(1)-216(p)/316中的其中一个解码器的个体角色。注意，将训练数据142划分为P个子集构成了本训练方法中的轻监督(light supervision)的一种形式。然而，其他所有的训练步骤均是无监督的。

让x_p(t_p)作为属于角色p的第t_p个图像。由于当前的深度学习模型与数据排序无关，因此在下文中删除该t_p索引以避免符号混乱。分别对应于神经解码器216(1)-216(p)/316的所有P个角色经由共享的神经编码器214/314进行编码，记为E，并且P个解码器，记为D_p,其中p∈[1,P]，被创建以生成这些角色的像素空间基础表示。结果为：

原始的训练方法是通过拒绝P个神经解码器216(1)-216(p)/316中的所有输入x_q的训练信号来实现专门化，其中q≠p。通过这种方式，每个神经解码器216(1)-216(p)/316将不会实际“看到”除了它们分别对应的角色数据之外的任何训练数据142，因此除了其各自的角色之外无法作为其他角色的基础。但是，这种方法并非是预期需要的，因为它在训练过程中会产生问题，这些问题将在本申请的渐进式训练方案中得到解决。

最终，解码是关于将输入代码与输出相关联，并且足够强大的解码器仅需要能够区分其输入，以便将它们近似地转换回图像空间。因为神经编码器214/314和神经解码器216(1)-216(p)/316都是随机初始化的，所以在训练的早期阶段，一个解码器对另一位解码器的隐空间的解释就不存在特权(privilege)。如果利用上述原始的方法来训练神经解码器216(1)-216(p)/316，基本上它们将会被分别训练，并且来自其中一个神经解码器216(1)-216(p)/316的训练信号可以有效地覆盖另一个神经解码器216(1)-216(p)/316的训练进度。该问题的一种解决方案是如上所述，通过将解码器的前几层的权重关联在一起来实现对隐空间的全局解释。该解决方案在所有的P个神经解码器216(1)-216(p)/316中强制执行与隐代码的一致关联。

根据一个示例性的训练策略，每层或每块的训练会迭代10⁵次。在迭代期间，对分别对应于神经解码器216(1)-216(p)/316的P个角色进行搅乱，然后选择来自该角色的一批图像，接着执行梯度更新。训练接着移动至下一个角色并重复该过程。注意，这将导致神经编码器214/314和所有共享解码器权重能够在单个迭代期间接收P个梯度更新，而独立解码器权重每次迭代只接收一个更新。增益参数α呈线性增加，使得它在L/2次迭代后达到1，其中L是渐进式训练层的总数(请参见图3A和图3B)。

在一实施方案中，在训练期间使用的层相关损失函数(level-dependent lossfunction)可表示为：

其中，在人脸交换的示例性用例中，x_p是地表真实图像，m(x_p)是源人脸的蒙版(mask)，

是重构，并且⊙表示元素相乘关系。但是，在一实施方案中，其中当目标图像数据132/232中的背景有利地或被期望成更加不变时，可以在训练期间使用以下损失函数：

对于层数0≤l≤2，f_l可以被设定为SSIM(即由Wang等人提出的、本领域公知的结构相似性指数)。根据一实施方案，输入图像在前两个层期间被放大至16×16。对于其余层，f_l可以被设置为MS-SSIM(即由Wang等人提出的、本领域公知的SSIM的多比例版本)。本领域公知的自适应矩估计优化器(Adam optimizer)可以用于以10^-4的学习速率进行训练。在最终层达到10⁵次迭代后，学习速率可以降低到10^-5。一旦训练完成，就可以在自动化过程中利用图像合成软件代码110/210，以基于流程图450概述的源数据126/226和目标图像数据132/232来生成合成图像138/238。

现在参考图4，并结合图1、图2、图3A和图3B，流程图450开始于：接收目标图像数据132/232和用于标识若干个角色之一的源数据126/226(动作451)，其中，该若干个角色分别与图像合成软件代码110/210的神经解码器216(1)-216(p)/316对应。在该人脸交换用于表演转换的示例性用例中，例如，每个神经解码器216(1)-216(p)/316可对应于若干个角色中的相应一个，该角色对应于特定的男性或女性人类演员或表演者。

例如，在某些情况下，有利地或人们所期望地，将表演者的表演转移给另一位演员，或者将具有一定年龄的演员的表演转移给扮演不同年龄(年龄更小或更大)的同一演员。其他应用包括：特技场景，尽管这对于演员的表演是危险的，但仍然需要高质量的脸部图像；以及同一演员同时扮演多个不同角色的用例，在传统技术中，这需要人工费力且费时地进行拍摄。

因此，在一些实施方案中，目标图像数据132/232包括目标脸部表示，并且源数据126/226标识与神经解码器216(1)-216(p)/316之一相对应的角色的脸部表示。此外，在一些实施方案中，目标图像数据132/232描绘第一表演者的表演，并且源数据126/226标识第二表演者。注意，在一些实施方案中，目标图像数据132/232可以包括目标静态图像，而在一些实施方案中，目标图像数据132/232可以包括目标视频序列。

目标图像数据132/232和源数据126/226可以由图像合成系统100的图像合成软件代码110/210接收，并且使用图像接收和预处理模块212，其中该图像合成软件代码110/210由硬件处理器104执行。如图1所示，在一实施方案中，目标图像数据132/232可以由表演场地148的相机130拍取，并且图像合成系统100可以经由通信网络120与网络通信链路122从相机130获取该目标图像数据132/232。

接着，在流程图450中，使用神经编码器214/314将目标图像数据132/232映射至目标图像数据132/232的隐空间表示(即隐向量244/344)(动作452)。参照图2、图3A和图3B，图像合成软件代码110/210的图像接收和预处理模块212接收目标图像数据132/232和源数据126/226，并向神经编码器214/314提供输入图像236/336。图像合成软件代码110/210在由硬件处理器104执行时执行编码过程，该编码过程将目标图像数据132/232映射到目标图像数据132/232的隐空间表示，然后将其输出到神经解码器216(1)-216(p)/316作为隐向量244/344。

在一些实施方案中，在目标图像数据132/232被神经编码器214编码之前对其进行预处理是有利的或人们所期望的。目标图像数据132/232的预处理可以包括脸部对准并且可以基于例如在目标图像数据132/232中标识的的脸部特征点(facial landmark)。可以使用图像合成软件代码110/210的图像接收和预处理模块212来执行该脸部对准和其他预处理步骤。适用于脸部对准的脸部特征点可以位于以下示例性位置，包括：眼睛中心、眼角、嘴角、耳朵等位置。

例如，对于目标图像数据132/232，可以检测到人脸并且定位其脸部特征点。然后该目标图像数据132/232可以被旋转和缩放，以使得眼睛位于具有预定取向的线上从而具有预定的瞳孔间距离。在进行所描述的旋转和缩放之后，目标图像数据132/232可以被裁剪和调整大小，例如调整至1024×1024像素。包括目标图像数据132/232的输入图像236/336“x_q”被馈送到神经编码器214/314并映射到由隐向量244/344携带的隐空间表示“z_q”，其中z_q＝E(x_q)。

相对于脸部对准，值得注意的是，由Kowalski等人提出的、本领域公知的深度对准网络足以在单个图像中交换脸部。但是，对于视频序列，该深度对准网络中使用的归一化技术会导致出现不令人满意的时序伪像。

由于在128×128分辨率下非常小的定位不一致会在使用1024×1024分辨率时被放大，因此在高分辨率下，脸部特征点位置的快速帧到帧转换会引起伪像。为了缓解这种不良效果，脸部特征点定位的精度需要增加。为此，在本公开的具有新颖性及创造性的方法中，执行初始检测和对准，并提出脸部边界框的宽度w。最初检测到的边界框(分成βw个像素)的位置随后以图像平面的八个主要方向平移，每次执行新的脸部对准，然后对所得的九组定位特征点进行平均。我们已经观察到，在1024×1024分辨率下使用β＝0.05时可以基本上消除所有可检测到的时序伪像。

接着，在流程图450中，标识神经解码器216(1)-216(p)/316之一，以基于由源数据126/226标识的角色，对目标图像数据132/232的隐空间表示进行解码(动作453)。如上所述，每个神经解码器216(1)-216(p)/316对应于相应的一个角色。动作453对应于：基于输入图像236/336来标识与由源数据126/226所标识的角色相对应的神经解码器216(1)-216(p)/316中的特定一个。

根据图2所示的示例性实施方案，神经解码器216(1)-216(p)/316中的神经解码器216(2)/316被标识，以解码由隐向量244/344携带(carried by)的目标图像数据132/232的隐空间表示。在动作453中，对神经解码器216(2)/316的标识可以由图像合成软件代码110/210执行，并使用图像接收和预处理模块212和神经编码器214/314中的其中之一或同时使用该二者，其中该图像合成软件代码110/210由硬件处理器104执行。

接着，在流程图450中，使用所标识的神经解码器216(1)-216(p)/316之一，例如神经解码器216(2)/316，将由隐向量244/344携带的目标图像数据132/232的隐空间表示解码为由源数据126/226标识的角色，以产生交换的图像数据246(动作454)。对隐向量244/344所携带的目标图像数据132/232的隐空间表示进行解码以产生交换的图像数据246可以由图像合成软件代码110/210执行，并且使用神经解码器216(1)-216(p)/316中的其中一个，其中该图像合成软件代码110/210由硬件处理器104执行。交换图像数据246可以表示为

其中e

流程图450结束于：将交换的图像数据246与目标图像数据132/232融合以产生目标图像数据132/232的(多个)合成图像138/238(动作455)，其中该(多个)合成图像138/238带有由源数据标识的角色。将交换的图像数据246与目标图像数据132/232融合以产生合成图像138/238可以由图像合成软件代码110/210执行，并使用合成模块218，其中该图像合成软件代码110/210由硬件处理器104执行。注意，根据本公开的具有新颖性和创造性的自动图像合成解决方案，使用图像合成软件代码110/210产生的合成图像138/238可以具有百万像素的分辨率。

应当进一步注意的是，利用原始图像融合生成人脸是一项非凡的任务。即使姿势和脸部表情完美匹配，但简单地将源人脸粘贴到目标上，通常也会导致颜色和光影不一致，并且图像的源部分和目标部分之间会出现明显的边界。许多传统的融合方法使用泊松融合(Poissonblending)，其目的是使粘贴的源区域的梯度与将被粘贴的目标区域的梯度匹配。该常规方法可以为静态图像获得合理的结果。然而，在视频序列中，如果人脸的边界在帧与帧之间变化，则由泊松法施加的严格边界约束会影响整个人脸的光影，从而导致不现实的闪烁效果。

根据本发明原理，引入并使用了增强型多波段融合技术。基本的多波段融合可在拉普拉斯金字塔(Laplacian pyramid)的每个层上融合图像，然后重构出边界平滑的最终图像。本文介绍的增强型多波段融合将通过复制源图像金字塔的低层的分量来增强全局图像特性，从而为输出图像创建自定义的拉普拉斯金字塔，并且通过该金字塔传播前景和背景蒙版。我们强制执行使得边界平滑效果仅在图像的内部方向(例如脸部的内部方向)上传播。因此，本发明的增强型多波段融合技术确保了外部图像轮廓(例如脸部轮廓)不会被混合过程平滑处理。在图5中示出了用于执行该增强型多波段融合技术的示例性算法的伪代码500。

在一些实施方案中，目标图像数据132/232包括目标脸部表示，并且源数据126/226标识对应角色的脸部表示，该角色与神经解码器216(1)-216(p)/316之一相对应，(多个)合成图像138/238可以用该角色的脸部表示代替目标图像数据132/232中的目标脸部表示。在一些实施方案中，目标图像数据132/232描绘第一表演者的表演并且源数据126/226标识第二表演者，(多个)合成图像138/238可以将第一表演者的表演转移到第二表演者。在一些实施方案中，目标图像数据132/232包括目标视频序列的一系列合成视频帧，其中带有由源数据126/226标识的角色。

尽管未包括在流程图450中，但是在一些实施方案中，本方法可以包括在图像合成系统100的显示器108上渲染(多个)合成图像138/238。如上所述，该显示器108可以包括LCD、LED显示器、OLED显示器、或能够执行信号到光的物理转换的任何其他合适的显示器。显示器108上的合成图像138/238的渲染可以由图像合成软件代码110/210来执行，其中该图像合成软件代码110/210由计算平台102的硬件处理器104执行。

因此，本申请公开了使用梳状神经网络架构来执行自动图像合成的系统和方法，该系统和方法克服了传统技术中的缺点和不足。从以上描述中可以明显看出，在不脱离这些概念的范围的情况下，可以使用各种技术来实现本申请中描述的概念。此外，尽管已经具体参考某些实施方案描述了概念，但是本领域普通技术人员将认识到，可以在形式和细节上进行改变而不脱离这些概念的范围。如此一来，本文所描述的实施方案在所有方面都应被认为是说明性的而非限制性的。还应该理解，本申请不限于本文描述的特定实施方案，而是在不脱离本公开的范围的情况下，可能进行诸多的重新布置、修改和替换。

Claims

1.一种图像合成系统，包括：

计算平台，所述计算平台具有硬件处理器和存储软件代码的系统存储器，所述软件代码包括神经编码器和多个神经解码器，所述多个神经解码器分别对应于多个角色中的相应角色；

所述硬件处理器配置为执行所述软件代码以：

接收目标图像数据和源数据，所述源数据标识所述多个角色中的一个；

使用神经编码器将所述目标图像数据映射至所述目标图像数据的隐空间表示；

基于由所述源数据标识的所述多个角色的一个，标识所述多个神经解码器中的一个，以用于对目标图像数据的隐空间表示进行解码；

使用所述多个神经解码器中所标识的一个神经解码器，将所述目标图像数据的隐空间表示解码为由所述源数据标识的所述多个角色中的一个，以产生交换图像数据；以及

将交换的图像数据与目标图像数据融合，以生成一个或多个合成图像。

2.根据权利要求1所述的图像合成系统，其中，所述多个神经解码器包括至少三个神经解码器。

3.根据权利要求1所述的图像合成系统，其中，所述多个神经解码器与所述神经编码器的输出并联耦合。

4.根据权利要求1所述的图像合成系统，其中，所述神经编码器和所述多个神经解码器中的每一个包括卷积神经网络(CNN)。

5.根据权利要求1所述的图像合成系统，其中，所述目标图像数据包括目标视频序列，并且其中，所述一个或多个合成图像包括所述目标视频序列的一系列合成视频帧，其中所述目标视频序列带有由所述源数据标识的所述多个角色中的一个。

6.根据权利要求1所述的图像合成系统，其中，所述一个或多个合成图像具有百万像素分辨率。

7.根据权利要求1所述的图像合成系统，其中，所述目标图像数据描绘第一表演者的表演，并且所述源数据标识第二表演者，并且其中，所述一个或多个合成图像将所述第一表演者的表演传递给所述第二表演者。

8.根据权利要求1所述的图像合成系统，其中，所述目标图像数据包括目标脸部表示，并且所述源数据标识所述多个角色中的一个的脸部表示，并且其中，所述一个或多个合成图像将所述多个角色中的一个的脸部表示替换为目标图像数据中的目标脸部表示。

9.根据权利要求1所述的图像合成系统，其中，所述神经编码器和所述多个神经解码器渐进式地训练，该训练以低分辨率数据开始，并以逐步更高的分辨率训练数据继续训练直到合成能够满足预定分辨率阈值的训练输出图像。

10.根据权利要求1所述的图像合成系统，其中，所述多个神经解码器中的每个均包括若干个解码器层，所述若干个解码器层各自与一权重因子相关联，其中对应于一些解码器层的权重因子在所有的神经解码器中均是被关联在一起的。

11.一种由图像合成系统使用的方法，所述图像合成系统计算平台，所述计算平台包括具有硬件处理器和存储软件代码的系统存储器，所述软件代码包括神经编码器和多个神经解码器，所述多个神经解码器分别对应于多个角色中的相应角色，所述方法包括：

通过由所述硬件处理器执行的软件代码接收目标图像数据和源数据，其中所述源数据标识所述多个角色中的一个；

通过由所述硬件处理器执行的软件代码使用所述神经编码器将所述目标图像数据映射至所述目标图像数据的隐空间表示；

基于由所述源数据标识的所述多个角色中的一个，通过由所述硬件处理器执行的软件代码标识所述多个神经解码器中的一个，以用于对所述目标图像数据的隐空间表示进行解码；

通过由所述硬件处理器执行的软件代码使用所述多个神经解码器中所标识的一个神经解码器，将所述目标图像数据的隐空间表示解码为由所述源数据标识的所述多个角色中的一个，以产生交换图像数据；以及

通过由所述硬件处理器执行的软件代码将所述交换图像数据和所述目标图像数据融合，以产生一个或多个合成图像。

12.根据权利要求11所述的方法，其中，所述多个神经解码器包括至少三个神经解码器。

13.根据权利要求11所述的方法，其中，所述多个神经解码器并联地耦合至所述神经编码器的输出。

14.根据权利要求11所述的方法，其中，所述神经编码器和所述多个神经解码器中的每一个包括卷积神经网络(CNN)。

15.根据权利要求11所述的方法，其中，所述目标图像数据包括目标视频序列，并且其中，所述一个或多个合成图像包括所述目标视频序列的一系列合成视频帧，其中所述目标视频序列带有由所述源数据标识的所述多个角色中的一个。

16.根据权利要求11所述的方法，其中，所述一个或多个合成图像具有百万像素分辨率。

17.根据权利要求11所述的方法，其中，所述目标图像数据描绘第一表演者的表演，并且所述源数据标识第二表演者，并且其中，所述一个或多个合成图像将所述第一表演者的表演传递给所述第二表演者。

18.根据权利要求11所述的方法，其中，所述目标图像数据包括目标脸部表示，并且所述源数据标识所述多个角色中的一个的脸部表示，并且其中，所述一个或多个合成图像将所述多个角色中的一个的脸部表示替换为目标图像数据中的目标脸部表示。

19.根据权利要求11所述的方法，其中，所述神经编码器和所述多个神经解码器渐进式地训练，该训练以低分辨率数据开始，并以逐步更高的分辨率训练数据继续训练直到合成能够满足预定分辨率阈值的训练输出图像。

20.根据权利要求11所述的方法，其中，所述多个神经解码器中的每个均包括若干个解码器层，所述若干个解码器层各自与一权重因子相关联，其中对应于一些解码器层的权重因子在所有的神经解码器中均是被关联在一起的。