CN111127304B

CN111127304B - 跨域图像转换

Info

Publication number: CN111127304B
Application number: CN201811294026.6A
Authority: CN
Inventors: 廖菁; 袁路; 曹凯迪
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2024-02-20
Anticipated expiration: 2038-10-31
Also published as: WO2020091891A1; US20220044352A1; JP7373554B2; US11481869B2; JP2022503647A; KR20210083276A; KR102663519B1; CN111127304A; EP3874458A1

Abstract

根据本公开的实现，提出了一种跨域图像转换方案。在该方案中，基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络，第一图像域和所述第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形。对第二图像执行从第二到第一图像域的几何变形以生成中间图像，或对第一图像执行从第一到第二图像域的几何变形以生成中间图像。基于第一图像和从第二图像生成的中间图像或基于第二图像和从第一图像生成的中间图像，确定用于从第一图像域到第二图像域的风格变换的第二学习网络。通过该方案，用于跨域图像转换的学习网络的处理准确度能够提高并且复杂度降低。

Description

跨域图像转换

背景技术

图像转换指的是将一幅源图像转换为具有不同风格的图像。不同图像类型可以被认为是不同图像域。例如，照片、漫画、油画、漫画、素描、水彩画等可以被认为是不同的图像域。不同图像域中的图片的风格和/或几何变形呈现通常是不同的。

当前有很多图像转换技术能够实现跨域图像转换。然而，大多数图像转换技术专注于将源图像的风格变换期望的其他风格，但保留图像中呈现的内容基本保持不变。例如，可以将照片转换为素描风格的图像，但图像中的对象形状基本保持不变。在一些情况中，如果期望将源图像变换到具有不同几何形状呈现的目标图像，例如将展现真实人物的照片转换为具有夸张变形风格的漫画图像或者反之，仅仅转换照片的风格将不足以呈现漫画的效果。

发明内容

根据本公开的实现，提出了一种用于跨域图像转换方案。在该方案中，基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络，第一图像域和所述第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形。对第二图像执行从第二图像域到第一图像域的几何变形以生成保持与第二图像相同风格的中间图像，或者对第一图像执行从第一图像域到第二图像域的几何变形以生成保持与第一图像相同风格的中间图像。基于第一图像和从第二图像生成的中间图像或者基于第二图像和从第一图像生成的中间图像，来确定用于从第一图像域到第二图像域的风格变换的第二学习网络。通过该方案，用于跨域图像转换的学习网络的处理准确度能够提高并且复杂度降低。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算环境的框图；

图2A示出了根据本公开的一个实现的图像转换模块的框图；

图2B示出了根据本公开的另一个实现的图像转换模块的框图；

图3示出了根据本公开的一个实现的用于训练第一学习网络的训练架构的框图；

图4A示出了根据本公开的一个实现的用于训练第二学习网络的训练架构的框图；

图4B示出了根据本公开的另一个实现的用于训练第二学习网络的训练架构的框图；

图5A示出了根据本公开的一个实现的用于跨越的图像转换的过程的流程图；

图5B示出了根据本公开的另一个实现的用于跨越的图像转换的过程的流程图；

图6A示出了根据本公开的一个实现的用于训练学习网络的过程的流程图；以及

图6B示出了根据本公开的另一个实现的用于训练学习网络的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，跨域图像转换可能涉及在具有不同几何形状呈现的图像域之间的转换。一个典型的示例是将照片转换为漫画图像或者反之。漫画可以被定义为用简单或夸张的方式描画对象的一种艺术形式。漫画通常着重于刻画描画对象的面部，特别是人的面部。漫画的特点在于使得对象的某些部分呈现夸张的形状，从而达到幽默或讽刺等娱乐效果。因此，在漫画中的对象的几何形状相较于诸如真实照片等形式的图像中的对象的几何形状有变形效果。在日常生活中，漫画通常由艺术家手工绘制。艺术家有能力捕捉特定对象的显著特点，并在绘制漫画时刻意夸大这些特点。

已经尝试开发自动图像转换技术用于将其他图像域中的图像转换成漫画。一种方案是给出一个变形系统，允许用户操作图像变形。这种方法要求用户具有专业知识，并且可能需要有经验的艺术家的充分介入。还有一种方案是从艺术家绘制漫画的过程中确定一些夸张规则，例如将面部的鼻子放大、眼睛放大和/或嘴巴放大等，然后利用这些夸张规则来将源图像变换为漫画。然而，这种方案受限于特定的艺术形式(用于变换素描或某些卡通画)，并且变换后的漫画中的夸张方式仅简单遵循预定的规则，无法呈现不同对象的有区分性的特点。

近年来，深度学习(也称为机器学习)技术已经被成功应用到图像转换中。基于深度学习的方案利用训练图像来训练学习模型，使学习模型能够将一个图像域中的图像转换为另一图像域中的图像。然而，将深度学习的技术应用于涉及漫画域的图像转换存在极大挑战。

首先，大多数图像没有配对的漫画版本。例如，对于很多照片，并不能找到对应的漫画图像。由艺术家对每张照片均创作对应的漫画版本是非常耗时且高成本的。因此，难以利用有监督的学习方式来训练学习模型。

另一方面，生成漫画图像的关键在于几何形状夸张和风格变换。然而，很多学习模型通常关注于风格转换，而图像中呈现的内容基本保持不变。这意味着图像中的对象的几何形状不会显著变化。提出了一些无监督的跨域图像转换，理论上要使得学习模型被训练为能够同时学习几何变形和风格转换。然而，漫画域与其他图像域之间的形状和风格的较大差异对于这些学习模型而言是较大挑战，因此学习模型的输出总是无法令人满意。

示例环境

以下参考附图来说明本公开的基本原理和若干示例实现。图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如内存、闪存驱动、磁盘或者任何其他介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。

计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，而不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使其表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们可以从常规服务器被提供，或者可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多种实现中的跨域图像转换。因此，在下文中，计算设备也被称为“图像处理设备100”。存储器120可以包括一个或多个图像转换模块122，其具有一个或多个程序指令，这些模块可以由处理单元110访问和运行，以实现本文所描述的各种实现的功能。

在执行图像变换时，图像处理设备100能够通过输入设备150接收源图像102。由输入设备150获取的源图像102被提供作为图像转换模块122的输入。图像转换模块122对源图像102执行跨域图像转换。在本文中，期望在图像的风格和几何形状方面进行变换。这样的图像转换适合用于从其他图像域转换到漫画域，或者从漫画域转换到其他图像域。在图1的示例中，图像转换模块122将照片域的源图像102变换到漫画域的目标图像104。输出设备160可以将目标图像104呈现给观看者或者传输给其他设备。

应当理解，图1示出的源图像102和目标图像104仅用于示例的目的。在其他示例中，任何源图像可以被处理并且可能生成漫画形式的不同目标图像。在一些实现中，图像转换模块122还可以被设计为将漫画形式的源图像变换为不带形状夸张效果的其他目标图像。

工作原理

根据本公开的实现，提出了一种跨域图像转换的方案。在该方案中，跨域图像转换被明确分解为几何变形和风格变换两个任务。

在第一实现中，对待变换的源图像分别执行几何变形和风格变换，并且在两个任务的执行结果的基础上获得目标图像。具体地，几何变形使得源图像中的对象的第一几何形状变形为第二几何形状。风格变换使得具有第一风格的源图像变换为具有第二风格的中间图像。然后，基于第二几何形状将中间图像变换为目标图像。目标图像具有第二风格并且其中的对象具有变形后的第二几何形状。根据这个方案，将复杂的跨域图像转换问题由两个并行的几何变形和风格变换任务来实现。这可以提高处理准确度、降低复杂度。因此，得到的目标图像在几何变形和风格上都更符合期望的图像域的特点。

在第一实现中的几何变形和风格变换两个任务可以由学习网络来实现。在学习网络的确定阶段，第一图像域和第二图像域中的图像被用于确定用于几何变形的第一学习网络。为了确定用于风格变换的第二学习网络，对第二图像域中的图像执行从第二图像域到第一图像域的几何变形，以生成具有第一图像域的几何形状并且保持第二图像域的风格的中间图像。中间图像和第一图像域中的图像一起用于确定第二学习网络。在学习网络的确定过程中，通过引入中间图像来确定用于风格变换的学习网络，可以抵消两个图像域的图像之间的几何差异，从而使得第二学习网络能够集中学习风格的转换。

在第二实现中，在执行几何变形和风格变换两个任务时，首先对待变换的源图像分别执行几何变形，然后在几何变形的基础上执行风格变换，以获得目标图像。具体地，几何变形使得源图像中的对象的第一几何形状变形为第二几何形状。基于第二几何形状来变换源图像，以生成中间图像，该中间图像保持与源图像相同的第一风格。然后，对中间图像执行风格变换，以将具有第一风格的中间图像变换为具有第二风格的目标图像。根据这个方案，将复杂的跨域图像转换问题由两个顺序执行的几何变形和风格变换任务来实现。这可以提高处理准确度、降低复杂度。因此，得到的目标图像在几何变形和风格上都更符合期望的图像域的特点。

上述顺序执行的几何变形和风格变换任务也可以由学习网络来实现。在学习网络的确定阶段，用于几何变形的第一学习网络的确定与第一实现中的确定类似。在确定用于风格变换的第二学习网络时，对第一图像域的图像执行从第一图像域到第二图像域的几何变形，以生成保持第一图像域的风格的中间图像。中间图像和第二图像域中的图像一起用于确定第二学习网络。在学习网络的确定过程中，通过引入中间图像来确定用于风格变换的学习网络，可以抵消两个图像域的图像之间的几何差异，从而使得第二学习网络能够集中学习风格的转换。

以上描述了在分离成几何变形和风格变换两种明确任务的跨域图像转换的不同实现的基本工作原理。本公开的图像转换方案可以适合于具有不同风格并且对象相对彼此具有几何变形的两个图像域之间执行图像转换。这样的图像转换特别适合用于从其他图像域转换到漫画域，或者从漫画域转换到其他图像域，因为漫画域中对象通常被表现为具有夸张形状。在下文的具体实现中，为了便于描述，以从照片域到漫画域的图像转换为例进行说明。然而，应当理解，本公开的方案同样适用于从其他图像域到漫画域的图像转换，或者从漫画域到其他图像域的图像转换。

在本文中，“漫画”将被宽泛理解为具有对象的夸张几何形状呈现的图像，这种夸张是相对于对象的真实几何形状的变形(例如，放大、缩小、移位、旋转、扭曲等等)。在本文中，图像的风格指的是图像中的颜色、纹理、亮度等外观特征，诸如颜色搭配、明暗过渡、纹理特点等等。图像的风格不包括图像中的对象的几何形状。

在本文中，学习网络也可以被称为“学习模型”或“神经网络”。在下文中，术语“学习模型”、“学习网络”、“神经网络”、“模型”和“网络”可替换地使用。一般来说，学习网络可以被理解为能够将输入映射到期望的输出。这种映射能力可以通过利用训练数据对学习网络进行训练来确定。学习网络的训练过程可以被理解为确定用于调整输入的网络参数，从而获得期望映射输出。

在介绍本公开的具体实现之前，首先来介绍涉及几何变形的跨域图像转换的期望目标。合理的漫画生成结果是漫画中呈现的对象接近于艺术家的创作。漫画图像中的对象看起来具有夸张的形状，但形状夸张并不是一种失真。失真指的是完全脱离对象的真实情况，但漫画中的形状夸张将维持对象的相对几何位置(例如，面部特征的相对几何位置)、同时仅突出强调给定对象区别于其他对象的显著特点。因此，图像转换后的漫画期望能够维持源图像中对象的特点，同时还能够视觉上呈现漫画的风格。

进一步地，图像转换的另一期望目标是使漫画的生成具有多样化并且可控。换言之，期望对于给定的源图像，可以生成不同类型的漫画，并且最终输出结果可以由用户或者用其他方式控制。此外，如以上提及的，从成本角度考虑，获得配对的照片和漫画用于以有监督的方式训练学习网络较困难。因此，在学习网络的训练方面，期望用于执行图像转换的学习网络能够以无监督的方式，利用不配对的照片和漫画来训练。

实现并行几何变形和风格变换的架构

图2A示出了在并行几何变形和风格变换的第一实现中的图像转换模块的架构。该架构基于学习网络来实现，并且可以被实施在图1的计算设备100的图像转换模块122处。如所示出的，图像转换模块122包括用于几何变形的第一学习网络210和用于风格转换的第二学习网络220。第一学习网络210和第二学习网络220能够独立地进行操作以执行相应的任务并且独立地被训练。

假设X和Y分别表示第一图像域(以照片域为例)和第二图像域(以漫画域为例)。跨这个域的图像转换问题可以被描述为获得一种映射Φ：X→Y，能够将域X的输入x∈X转换到域Y中的某个样本y＝Φ(x)，y∈Y。这个问题是一个典型的跨域图像转换问题，因为照片域和漫画域在几何形状和风格方面都不同。根据本公开的实现，这个问题被分解为成两个任务，即几何变形和风格转换。因此，总映射Φ被明确解耦为两个映射，用于几何变形的映射Φ_geo和用于风格转换的映射Φ_app。在图2A的示例中，两个映射Φ_geo和Φ_app分别由第一学习网络210和第二学习网络220学习。也就是说，假设第一学习网络210和第二学习网络220的网络参数已被确定，因此可以用于处理输入的源图像102以获得目标图像104。

第一学习网络210被训练以获得执行对输入的源图像102的几何变形的能力，从而能够将源图像102中对象的第一几何形状变形为漫画域中的第二几何形状。源图像102可以例如由用户输入，是用户期望转换的图像。与真实照片相比，相同对象在漫画域中的几何形状将被变形，以达到夸张效果。第一学习网络210仅对象的几何变形，而不关心源图像102的任何风格变换。

图像转换模块122还包括几何形状检测器230，用于检测源图像102中的对象的几何形状(即，第一几何形状)，以供由第一学习网络210处理。源图像102中可以包括一个或多个对象，例如人、人脸、动物、植物、或者任何其他物体。在图2A示出的源图像102中，所关心的对象是人脸。然而，输入的源图像也可以包括其他具有特定几何形状的对象，并且本公开的方案也可以对这些源图像中的对象进行几何变形。几何形状检测器230确定的几何形状可以由源图像102中的对象的线条表示(例如，表示线条的各个像素的坐标点，即在源图像102的二维坐标系中的坐标点)。

为了缩小几何形状表示的维度，可以源图像102中表示第一几何形状的线条上的点进行采样，并用采样点的坐标表示几何形状。这样的采样点可以是表示第一几何形状202的特征点(也称为关键点)(由图2A的第一几何形状202中描绘几何形状的各个点示出)，例如人脸特征点。这样的特征点的数目和分布可以被配置为保持对象的各个部分的形状和相对位置。特征点的数目例如可以是16、32、63个点等等。

特征点也可以用二维坐标表示，但是这样数据维度仍然很大。直接由第一学习网络210处理这样输入会导致增加网络结构复杂度和计算效率。为了进一步降低维度，还可以对表示第一几何形状202的特征点执行主成分分析(PCA)，以确定这些特征点的PCA表示(例如，由图2A中未示出的其他模块确定)。第一学习网络210接收表示源图像102中的对象的第一几何形状的PCA表示作为输入，并且对PCA表示执行几何变形，以获得变形后的PCA表示。变形后的PCA表示被用于确定具有第二几何形状204的变形特征点(例如，由图2A中未示出的其他模块确定)。

PCA是对于给定输入，确定维度更低的特征向量来表示输入的主要特征，这样的特征向量也称为主成分。例如，对于源图像102中的对象的63个特征点，可以选择主成分分析之后的前32个主成分，这些主成分可以用于恢复出绝大部分(大约99.03％)的输入特征点。因此，对象的63个特征点可以用32个PCA系数组成的一维向量来表示。

除了降低维度之外，PCA表示还有助于在第一学习网络210的处理过程中约束对象的几何结构，例如约束人脸的结构，这特别有利于第一学习网络210的学习(训练)。特征点的PCA表示可以重构对象的几何结构的一个嵌入空间，其中每个主成分表示一种变量(例如姿态、形状、大小)的方向。这个嵌入空间中的任何样本可以维持对象的基本结构。这种结构约束是由二维坐标表示的特征点无法实现的，因为在训练过程中，二维坐标点的位置的自由度特别大，因此难以保持对象的几何结构。

在一些实现中，第一学习网络210还可以基于用户指示的变形程度来执行几何变形，以使源图像102中的对象的第一几何形状变形到第二几何形状。变形程度可以由用户指示，例如可以设置一个用户可调节参数，用于指示变形程度。第二学习网络220可以基于变形程度来确定第二几何形状相对于第一几何形状的变形。例如，第一学习网络210如果要将第一几何形状中的某个部分放大或缩小，那么变形程度可以控制该部分的放大或缩小的程度。

第二学习网络220被训练以学习到对输入的源图像102执行风格变换的能力，从而能够将具有照片域中的第一风格的源图像102变换为具有漫画域中的第二风格的中间图像212。不同图像域中的风格的类型可能有差别。例如，相比于真实照片，漫画的风格在颜色和纹理上表现出手工绘制的笔触。第二学习网络220仅执行风格变换，而保留源图像102中的对象的几何形状。因此，中间图像212在风格上类似于漫画，但在几何形状上类似于源图像102。

在执行风格变换过程中，第二学习网络220提取源图像102的内容相关特征表示，确定与第二风格相关联的外观相关特征表示，并且基于内容相关特征表示和外观相关特征表示来确定中间图像212。由此，所确定的中间图像212将同时结合源图像102的内容和第二风格。

在一些实现中，第二学习网络220可以被设计为能够将给定源图像转换成漫画域中的多个不同风格。这种能力可以将通过第二学习网络220的训练过程来学习，如下文中将详细描述的。在变换源图像102的风格时，第二学习网络220确定的与第二风格相关联的外观相关特征表示可以从预定的多个外观相关特征表示中随机选择。预定的多个外观相关特征表示从用于训练第二学习网络220的漫画域中的多个图像中确定，这将在关于第二学习网络的训练过程中详细描述。所选择的与第二风格相关联的外观相关特征表示可以是从漫画域中的一个图像提取的外观相关特征表示，或者是从多个图像中提取的多个外观相关特征表示的组合。

备选地，第二风格还可以由用户控制。具体地，可以由用户指示第二风格(例如，由用户在用于训练学习网络220的图像的一些风格中选择)，或者由用户提供具有第二风格的参考图像。第二学习网络220可以选择从与所指示的第二风格相同或类似的图像提取的外观相关特征表示，或者从参考图像提取外观相关特征表示，用于执行风格转换。

图像转换模块122还包括合并模块240，用于基于第二几何形状204(由特征点表示)和中间图像212来生成目标图像104。合并模块240在变形后的第二几何形状204的引导下，对中间图像212执行图像扭曲，以使得获得的目标图像104中的对象具有与第二几何形状204相同或类似的几何形状，同时目标图像104的风格保持与中间图像212一致。由此，实现了从照片域的源图像102到漫画域的目标图像104的图像转换。

第一学习网络210和第二学习网络220可以被选择为适合于执行图像处理的深度学习网络结构。在一些实现中，第一学习网络210和第二学习网络220可以基于生成式对抗网络(GAN)。这种网络特别适合于基于不同图像域中不配对的图像来进行无监督学习。GAN可以有一系列的变形。第一学习网络210的学习目标是：对于输入的每个源图像，能够执行最优的几何变形，获得与源图像对应的漫画域中的一个变形结果，这可以被认为是一对一的图像转换。被设计为实现一对一的图像转换的GAN可以用于确定第一学习网络210。第二学习网络220的一个学习目标是：对于输入的每个图像，潜在地能够生成具有漫画域中不同视觉风格的中间图像，这可以被认为是多对多的图像转换。被设计为实现多对多的图像转换的GAN可以用于确定第二学习网络220。

应当理解，虽然在本文中从照片域到漫画域的图像转换为例进行描述，本公开可以类似地用于从其他图像域到具有夸张形状变形的图像域的图像转换，只需要在学习网络训练时采用相应图像域中的图像继续训练即可。如果要从具有夸张形状变形的图像域(例如漫画域)到其他图像域的转换，图2A中的处理流程可以反转即可实现。此外，还应理解，虽然本文中使用术语“图像”，但所处理的图像可以来自视频帧。也就是说，本公开的方案也可以应用于对视频中的各个帧的转换。

以下将参照图3和图4A来分别介绍在图2A的架构中如何训练第一学习网络210和第二学习网络220。

实现顺序几何变形和风格变换的架构

图2B示出了在顺序几何变形和风格变换的第二实现中的图像转换模块122的架构。在该架构中的组件以及实现的具体功能与图2A的实现相同。具体地，图像转换模块122包括用于几何变形的第一学习网络210和用于风格转换的第二学习网络220，并且还可以包括几何形状检测器230和合并模块240。

不同于图2A的实现，在第一学习网络210对源图像102执行几何变形以将源图像102中的对象的第一几何形状202变形为第二几何形状204之后，第二几何形状204和源图像102一起被输入合并模块240。合并模块240基于第二几何形状204来变换源图像102，以生成中间图像242。合并模块240在变形后的第二几何形状204的引导下，对源图像102执行图像扭曲，以使得生成的中间图像242中的对象具有与第二几何形状204相同或类似的几何形状。由于直接在源图像102基础上执行扭曲，中间图像242保持与源图像102相同的第一风格(例如，真实照片风格)。

中间图像242被输入到第二学习网络220，以执行风格变换，生成目标图像104。第二学习网络220中的风格变换的具体操作与参考图2A描述的实现类似，在此不再赘述。第二学习网络220能够将漫画域的某个风格(随机选择或用户指定)施加到中间图像242。由于仅执行风格变换，第二学习网络220输出的目标图像104中的对象的几何形状与中间图像242的几何形状基本保持一致。因此，所获得的目标图像104在风格上类似于漫画，并且在几何形状上也表现出漫画域中几何夸张的特点。

如以上提及的，图2B中的组件的功能与图2A中类似。对于学习网络而言，对输入的处理能力是通过训练过程获得的。在图2A和图2B的实现中，第一学习网络210都用于将照片域中真实对象的几何变形成漫画域中夸张的几何形状。因此，第一学习网络210的训练过程相同，这将在下文中参考图3来详细讨论。在图2A和图2B中，虽然操作目的都是执行风格变换，但第二学习网络220的输入的类型不同。在图2A的实现中，第二学习网络220要学习的能力是对照片域中原始的图像进行处理；而在图2B的实现中，第二学习网络220要学习的能力是对几何变形后的图像进行处理。因此，训练图2B中的第二学习网络220的训练数据与训练图2A中的第二学习网络220的训练数据不同。对图2B中使用的第二学习网络220的训练将在下文中参照图4B描述。

用于几何变形的学习网络的训练

以上提及了第一学习网络210要获得用于几何变形的一个映射Φ_geo，以将输入的源图像中的对象的第一几何形状映射到变形后的第二几何形状，使得第二几何形状对第一几何形状中显著特点的部分进行夸张变形。在利用特征点来表示几何形状的实现中，假设L_X和L_Y分别是照片域(X)和漫画域(Y)的特征点域。第一学习网络210要被训练以学习映射φ_geo：L_X→L_Y，用于实现几何变形，从而针对域X中的照片x的特征点l_x，生成域Y中的变形特征点l_y∈L_Y。

用于训练第一学习网络210的训练数据包括照片域X中的第一图像(表示为{x_i}_i＝1，...，N，x_i∈X，N表示用于训练的第一图像的数目)和漫画域Y中的第二图像(表示为{y_i}_i＝1，...，M，y_i∈Y，M表示用于训练的第二图像的数目)。虽然在图3以及后续图4A和图4B中所使用的照片域和漫画域中的照片被示意为与图2A和图2B中训练后的学习网络实际处理和生成的两个图像域的照片类似，但这仅是示意的目的。在本公开的实现中，训练所采用的照片域和漫画域中的图像可以是任何真实照片和已生成的漫画。

在训练时，虽然从照片域和漫画域获得训练图像，但用于训练的两个图像域的图像可以是不配对的，即不要求任意给定第一图像均具有匹配的域Y中的第二图像。可以从已有数据库中任意选择照片和漫画。在一些实现中，此处的第一图像和第二图像可以具有同一类型的对象(例如，都是人、肖像、动物等)，但对象的几何形状特点和风格特点不相同，特别是对象的几何变形程度不同。在一些实现中，第一图像和第二图像可以被尺寸变化到相同大小，具有相同分辨率。

在基于特征点的几何形状表示中，用于训练的第一图像和第二图像上的特征点均被标记。因此，可以从这些图像上提取特征点以用于训练。为了集中所有可能的对象的几何形状，可以使用相似转换，通过若干特征点来将用于训练的第一图像和第二图像对齐到对象的平均形状(例如，人脸上的三个特征点，包括两只眼睛的中心和嘴巴的中心)。

如以上提及的，第一学习网络210可以基于GAN网络。GAN网络包括用于从域X到域Y的几何变形的第一子网络和用于从域Y到域X的几何变形的第二子网络。第一子网络对应于第一学习网络210。由于训练数据是不配对的，用于变形的L_X和L_Y中特征点也是不配对的，因此确定第一子网络的映射φ_geo：L_X→L_Y是欠约束的。因此，还可以利用第二子网络的反向映射L_Y→L_X来进一步约束。网络的训练过程就是确定和优化网络参数(例如，构成学习网络的参数)，这些参数组成映射。

图3示出了在基于GAN的实现中用于训练第一学习网络210的GAN结构300。GAN结构300是基于循环一致性的GAN结构。GAN结构300包括多个子网络，在这个示例中是两个生成器210、304和两个判别器320和322。一个生成器对应于第一学习网络210，也称为前向生成器210(被表示为)，用于建模从域X到域Y的几何变形(即，映射Φ_geo)。另一个生成器是后向生成器304(被表示为/>)，用于建模从域Y到域X的反向几何变形(即，反向映射/>)。在本文中，前向生成器210有时被称为GAN的第一子网络，后向生成器304有时被称为GAN的第二子网络。

GAN结构300包括两条路径。第一条路径是图3的上部分，用于基于第一图像来训练网络；第二条路径是图3的下部分，用于基于第二图像来训练网络。在第一条路径中，前向生成器210对域X中的第一图像的几何形状l_x 311执行从域X到域Y的几何变形(即，映射Φ_geo)，以生成变形几何形状313。变形几何形状315可以被表示为/>前向生成器210可以在PCA表示的基础上执行处理。在图3中，为了更好的示意，变形前和变形后的几何形状对应的图像对象也被示出。

具体地，前向生成器210以几何形状311的PCA表示312为输入，并且在变形后输出变形几何形状313的PCA表示314。后向生成器304对变形几何形状313执行从域Y到域X的反向几何变形(即，反向映射)，以获得L_X中的预测几何形状/>315。后向生成器304的输入可以是PCA表示314，并且输出预测几何形状315的PCA表示316。判别器320用于判别变形几何形状/>和真实的几何形状l_y是否不可区分。真实的几何形状l_y是从域Y中采样的图像的几何形状。在这个路径中，预测几何形状/>不仅被判别器320用于前向生成器结果的判断，而且还可以被反馈到后向生成器304。

在图3下部分的第二路径执行与第一路径类似的操作，但是以域Y中的第二图像为输入，因此生成器顺序发生调整。后向生成器304用于对第二图像的几何形状l_y执行从域Y到域X的几何变形331(即，反向映射)，以生成变形几何形状/>333。后向生成器304可以以几何形状331的PCA表示332为输入，并且在变形后输出变形几何形状333的PCA表示334。前向生成器210在PCA表示的基础上对变形几何形状333执行从域X到域Y的几何变形(即，映射Φ_geo),，以获得L_X中的预测几何形状/>315。前向生成器210的输入可以是PCA表示334，并且输出预测几何形状335的PCA表示336。判别器322用于判别变形几何形状/>和真实的几何形状l_x是否可区分。真实的几何形状l_x是从域X中采样的图像的几何形状。在第一和第二路径中，前向生成器210和反向生成器304的参数值是共享的。/>

在图3的GAN结构300中，由于前向生成器210是对从域X到域Y的几何变形进行建模，因此可以被认为是用于几何变形的第一学习网络210。

在一些实现中，由于前向生成器210和反向生成器304在PAC表示的基础上执行处理，因此网络结构可以被构造为包括全连(FC)层(例如，由ReLu等激活函数对应的处理节点构成)，而无需采用复杂的卷积层。卷积层通常适合于像素级别的图像处理，并且需要更复杂的计算。然而，由于PCA表示的维度低，因此简单的全连层也能够实现网络学习。

学习网络的训练过程是基于目标函数来不断迭代更新或优化网络参数。目标函数可以被确定为损失函数或代价函数。在本文公开的实现中，以损失函数为例进行说明，但是应当理解，这样的训练也可以基于代价函数进行。在一般的GAN网络的训练中，广泛考虑两个类型的损失，即对抗损失(被表示为)和双向循环一致性损失(被表示为/>)。

对抗损失促进网络被不断更新参数，以使生成的变形几何形状与从域Y采样的漫画图像的几何形状类似。对于第一路径，对抗损失可以被表示如下：

基于对抗损失，前向生成器210可以被更新为使得输出的预测几何形状不能够被判别器320区别于真实的几何形状。对于训练架构中的第二路径，可以类似地确定对抗损失(被表示为)，例如以公式(1)所列出的方式。

GAN网络中的双向循环一致性损失可以用于约束前向映射Φ_geo和反向映射之间的循环一致性。原理在于，如果用前向生成器210作为第一学习网络210对第一图像l_x执行几何变形，应该由反向生成器304准确地该变形后的几何形状继续变化到第一图像l_x中的几何形状，即/>类似地，可以定义反方向中的一致性为/>因此，双向循环一致性损失可以被表示为：

在公式(2)中，每个方向的循环一致性损失可以由两个向量的L1差异表示。双向循环一致性损失可以进一步帮助约束从输入到输出的映射。

对抗损失和双向循环一致性损失是在GAN网络中经常被考虑的两种损失。然而，在几何变形的学习任务中，基于这两种损失的训练可能仍难以确保变形后的几何形状能够捕获原始几何形状中具有区分性的显著特点并夸大这些特点。在本公开的一些实现中，在训练过程中还引入另一种损失，用于维持输入的第一图像中对象的几何形状与照片域中这类对象的平均几何形状之间的差异。这是因为某个对象的几何形状与这类对象的平均几何形状之间的差异表示这个对象的带有区分性的显著特点，因此在几何变形之后应当被保留或者甚至被放大。例如，如果与普通人脸相比，某张人脸上的鼻子更大，那么这种带有区分性的显著特点在变形到漫画域之后也应该被维持或者甚至被放大。因此，在训练时新引入的损失也可以被称为特性损失(表示为)。

特性损失可以在GAN结构300中的第一路径和第二路径中均做考虑。在第一路径中，可以通过惩罚输入的第一图像中的几何形状311和前向生成器210产生的变形几何形状313在减去它们在对应图像域中的平均几何形状之后的差异，来考虑特征损失/>具体地，针对用于训练的每个输入第一图像，在由当前的前向生成器210生成变形几何形状313之后，确定第一图像中的几何形状311(表示为l_x)与照片域X中的平均几何形状(表示为)之间的第一差异，并且还确定变形几何形状313(表示为/>)与漫画域Y中的平均几何形状(表示为/>)之间的第二差异。特性损失/>可以被确定为尽可能减小第一差异与第二差异之间的差异，这可以通过惩罚第一差异与第二差异之间的差异、例如余弦差异来确定。此时，特性损失/>可以被表示如下：

训练目标可以使最小化，从而使对象在图像域和漫画域中与平均几何形状的差异得以保持不变。

对称地，在GAN结构300中的第二路径，也可以确定反向方向上的特性损失(表示为)。具体地，针对用于训练的每个输入第二图像，在由当前的反向生成器305生成变形几何形状333之后，确定第二图像中的几何形状331(表示为l_y)与漫画域Y中的平均几何形状(表示为/>)之间的第三差异，并且还确定变形几何形状333(表示为/>)与照片域X中的平均几何形状(表示为/>)之间的第四差异。反向特性损失/>可以被确定为尽可能减小第三差异与第四差异之间的差异，这可以通过惩罚第三差异与第四差异之间的差异、例如余弦差异来确定。反向特性损失/>可以类似于公式(3)一样被定义。

在考虑以上提到的各种损失之后，训练GAN结构300的目标函数可以被确定为优化以下损失函数：

这个损失函数考虑了第一路径和第二路径中的各类损失，包括用于保持对象的几何形状的显著特点的特性损失。在公式(4)中，参数λ_cyc和λ_cha是预定值，用于平衡不同类型的损失。

在训练过程中，可以利用照片域和漫画域中的多个第一图像和第二图像来训练GAN结构300，每个第一图像和第二图像在经过GAN结构300之后可以有助于更新前向生成器210和反向生成器304的参数值。在GAN结构300中，前向生成器210和反向生成器304被联合训练。多种用于机器学习的训练技术可以用于训练GAN结构，诸如随机梯度下降法、前向传播、后向传播等。在达到总体损失函数(例如公式(4))的收敛之后，获得训练后的前向生成器210和反向生成器304。

在训练完成之后，前向生成器210和后向生成器304的参数集将被确定。前向生成器210可以被确定为能够实现从照片域X到漫画域Y的几何变形的第一学习网络210。GAN结构300中的其他部分可以被认为是为了训练第一学习网络210的目的而配置的，无需在网络的使用阶段被采用。

应当理解，虽然在图3中用于训练的第一图像被示出为具有类似于图2A和图2B中使用阶段涉及的照片，但是应当理解，在训练阶段，可以获取照片域中的任何已有照片来执行训练。用于训练目的的第一图像只需要包括所关心的特定类型的对象即可。

用于风格转换的学习网络的第一示例训练

以上提及第二学习网络220要获得用于风格转换的一个映射Φ_app，以将具有第一风格的图像变换到漫画域中具有第二风格的图像。在训练第二学习网络220的过程中，如果直接将照片域X中的第一图像({x_i}_{i＝1，...，N}，x_i∈X)和漫画域Y中的第二图像({y_i}_{i＝1，...，M}，y_i∈Y)用作训练图像，由于这些图像中的对象的几何形状差异较大，可能会使得第二学习网络220输出的图像中对象的几何结构和风格互相混淆。

为了避免训练图像中几何形状差异的影响，在本公开的实现中，提出了构造一个中间域。在训练用于图2A的架构中所使用的第二学习网络220时，将用于训练的漫画域Y中的第二图像通过几何变形而变换到中间域(被表示为Y’)的中间图像(表示为{y′_i}_{i＝1，...，M}，y′_i∈Y′)。中间域Y’介于照片域X与漫画域Y之间，中间图像保持与漫画域Y中的第二图像相同的风格，但是具有照片域X中对象的类似几何形状。可以通过对第二图像执行从漫画域Y到照片域X的几何变形来生成中间域Y’中的中间图像。在一些实现中，这种从域Y到域X的映射可以由在训练第一学习网络210时的后向生成器304学习到。因此，在一些实现中，可以首先训练GAN结构300，在训练出第一学习网络210的同时，还可以训练出后向生成器304，用于将漫画域Y中的第二图像转换到中间域Y’的中间图像，即

第二学习网络220可以基于照片域X中的第一图像和中间域Y’的中间图像来确定，以获取从照片域X到漫画域Y的风格变换的能力。第二学习网络220可以获得从域X到域Y’的映射，这是在不考虑几何变形的情况下的纯风格的图像转换。因此，第二学习网络220可以利用适合于风格转换的学习网络。实际上，仅从风格角度而言，从域X到域Y’的风格变换等同于从域X到域Y的风格变换，因为域Y’的风格与域Y的风格一致。

在一些实现中，与第一学习网络210类似，第二学习网络220也可以基于GAN网络。在一些示例中，第二学习网络220可以基于具有循环一致性的GAN网络，例如与第一学习网络210类似的GAN(如图3)。这种GAN网络仅可以生成一对一的输出。在另一些实现中，第二学习网络220可以基于实现多对多映射并且能够进行无监督学习的GAN网络。当前一些实现多对多映射的学习网络主要考虑特征级别的循环一致性，这使得图像中对象的几何结构难以保持。因此，在一些实现中，在训练第二学习网络220时，利用图像级别的循环一致性来约束第二学习网络220的训练。

图4A示出了在基于GAN的实现中用于训练第二学习网络220的GAN结构400。第二学习网络220的训练可以基于由相反的双向路径组成的循环一致性GAN结构，与图3类似。然而，为了方便图示，图4A中仅示出了从域X到域Y’这一方向的第一路径。另一方向的第二路径可以对称地被构造和用于训练，类似于图3中的第二路径。下面首先介绍在域X到域Y’这一方向的第一路径上的处理和训练。

在GAN结构400中，GAN的生成器被进一步细分成编码器和解码器部分。针对输入的图像，利用两个编码器分别建模图像的内容和风格，提取输入图像的内容相关特征表示和外观相关特征表示。这种内容和风格的分离有助于对于相同内容施加不同风格，从而获得不同的输出。解码器用于执行编码器的相反操作。在这样的结构中，用于风格变换的第二学习网络220由域X中的编码器和解码到域Y’的解码器组成。

如图所示，GAN结构400包括由以下组成的前向生成器部分：针对域X的内容编码器410(表示为)、风格编码器(表示为/>)，以及针对域Y’的解码器220-2(表示为R_Y′)。风格编码器和解码器220-2组成第二学习子网络。GAN结构400还包括由以下组成的后向生成器部分：针对域Y’的内容编码器420(表示为/>)、风格编码器430(表示为/>)、以及针对域X的解码器440(R_X)。

对于每个域I(I＝X或Y’)，由内容编码器(例如，在第一路径中是域X的内容编码器410)从输入图像(表示为z_I∈I，例如图4A中示出的域X图像)提取内容相关特征表示(c_I，也称为内容码，如图4A中示出的域X内容码403和域Y’内容码)。从多个输入图像提取的内容相关特征表示组成一个内容库，被表示为C_I。对于每个域I(I＝X或Y’)，还由风格编码器/>从输入图像(表示为z_I∈I，例如图4A中示出域X的第一图像或未示出的域Y’中间图像)提取外观相关特征表示(S_I，也称为风格码)。每个外观相关特征可以表征相应图像在外观上呈现出的风格。从多个输入图像提取的外观相关特征表示组成一个风格库(例如，针对域X的风格库S_X401和针对域Y’的风格库S_Y’405)。每个内容相关特征表示和外观相关特征表示可以指示为/>对于每个域I(I＝X或Y’)，解码器R_I基于内容相关特征表示和外观相关特征表示来重构图像，z_I＝R_I(c_I，s_I)。从用于训练的多个第一图像和中间图像获得的内容库C_I和风格库S_I假设满足高斯分布，/>

在图4A中示出的从域X到域Y’方向的第一路径中，对于给定域X中的第一图像x∈X，由内容编码器220-1提取内容相关特征表示403并且从风格库S_Y′405中随机选择与某个风格相关联的外观相关特征表示s_y′。然后，使用解码器220-2R_Y′来产生具有漫画域中的风格的输出图像y′，这被表示为y′＝R_Y′(c_x，s_y′)。内容编码器420、风格编码器430和解码器440也类似操作。

为了训练这样的GAN结构400，可以确定相应的目标函数，例如损失函数。在本公开的实现中，考虑在一般GAN网络训练中的典型损失，例如参考图3描述的对抗损失和循环一致性损失。

在GAN结构400中，对抗损失用于将解码器220-2生成的结果约束为与从中间域Y’选择的真实中间图像相同。GAN结构400还可以包括判别器432，用于判别与真实中间图像是否相同。在图4A中未示出的相反方向的第二路径中，也可以获得对称的对抗损失/>其中D_X表示针对域X的判别器。

在一些实现中，用于训练的另一类损失可以是重构损失，用于惩罚输入图像与从输入图像提取的内容相关特征表示和特征相关特征表示预测图像406之间的差异，以使得输入图像与重构图像尽可能相似。根据不同方向，输入图像和重构图像可以不同。例如，在图4A示出的从域X到Y’方向的第一路径上，输入图像是域X的具有照片风格的输入图像；预测图像406是由域X的解码器440根据输入图像的内容相关特征表示403和从针对域X的风格库S_X401中随机选择的外观相关特征表示来重构。在对称的从域Y’到X方向的第二路径上，输入图像是域Y’的具有漫画风格的图像，重构图像也是由类似的解码器根据输入图像的内容相关特征表示和从域Y’的风格库随机选择的外观相关特征表示来重构的图像。重构损失可以被表示为：

其中I＝X或Y’。在I＝X时，公式(5)表示在从域X到Y’方向的第一路径上的重构损失，并且在I＝Y’时，公式(5)表示在域Y’到X方向的第一路径上的重构损失。

另一类损失可以是循环一致性损失，用于约束输入图像在经过前向生成器部分的前向映射和反向生成器部分的反向映射之后，能够回到原始输入图像。具体地，在图4A示出的GAN结构400中，对于给定输入图像x∈X，在前向映射中由内容编码器220-1和解码器220-2执行从域X到域Y’的映射，获得预测图像404(表示为在本文中有时也称为第一预测图像)。如以上提及的，解码器220-2随机选择域Y’中的风格(等同于漫画域Y中的风格)来进行变换，因此第一预测图像404/>具有漫画域的风格，但对象中的几何形状依然保持与输入图像基本相同。因此，第一预测图像404实际上是对中间域Y’中的中间图像的一个预测。

解码器220-2的结果被反馈到域Y’的内容编码器420，以提取预测中间图像的外观相关特征表示422。解码器440从针对域X的风格库S_X401中随机选择针对一个外观相关特征表示，并且基于输入图像的内容相关特征表示422和所选择的外观相关特征表示获得预测图像408(表示为)。由于内容和风格均来自于域X，预测图像408实际上是对输入图像的一个预测。

在从域X到Y’方向上的循环一致性损失用于约束预测图像408不断接近输入图像相似，这可以被表示为：

公式(6)示出用L2差异来指示两个图像之间的差异。与常规的多到多映射的GAN网络中所使用的循环一致性损失不同，在本公开的实现中，循环一致性损失基于图像级别的差异，即预测图像与真实输入图像之间的差异。训练的目标在于使得这样的差异尽可能降低。在公式(6)的示例中，这种差异由两个图像之间的L2差异表示。当然，其他确定图像差异的方法也可以使用。

在一些实现中，还可以类似地计算从域Y’到X方向的第二路径上的循环一致性损失，被表示为这个循环一致性损失的确定可以类似于公式(6)，但其中各个变换的方向相反(即公式(6)中涉及的从域X到Y’的变换被反向为从域Y’到X的变换)。

上文提及的损失类型是从具有循环一致性和多到多映射的GAN网络中通常考虑的损失。然而，仅利用这些损失来训练GAN结构400可能不能够使得GAN结构400能够将图像的内容特征和几何结构特征完全分离，这容易导致难以在图像转换后保持对象的几何结构。在本公开的一些实现中，还考虑额外的损失，以进一步优化GAN结构400的训练。这样的损失被称为感知损失，用于明确约束编码器的输入图像与解码器的输出图像在内容上保持不变。

具体地，在图4A示出的GAN结构400中，针对输入用于训练的第一图像402(也称为输入图像)，利用内容编码器220-1和解码器220-2组成的子网络来实现第一图像402的风格变换，从而获得第一预测图像404(表示为)，其中第一预测图像404的风格是从域Y’的风格库405中随机选择的。感知损失指的是第一预测图像404与第一图像402在内容上的差异。这种差异可以基于从第一预测图像404与第一图像402分别提取的特征图，特别是与内容相关的特征图之间的差异来表示。感知损失可以被表示为：

其中VGG19_{5_3}(a)表示从图像a提取的与内容相关的特征图。公式(7)指示特征图之间的差异与L2差异表示。感知损失主要用于约束内容编码器220-1和解码器220-2的训练。

对于图4A中未示出的从域Y’到X方向的第二路径上，也可以类似地确定感知损失(表示为)。在这个相反的第二路径上，输入图像是从域Y中的第二图像变换得到的中间图像。第二图像可以是已知的任何漫画，可以包括或不包括与第一图像402匹配的漫画。由内容编码器420和另一解码器(图4A中未涉及)执行从域Y’到域X的风格变换。中间图像可以具有域Y’中的任意风格(等同于域Y的任意风格)(假设中间图像和第二图像一样，具有域Y中的第三风格)，要变换的风格可以是从域X的风格库401中随机选择的一个风格(称为第四风格)。感知损失/>可以基于输入的中间图像与针对图像402的第二预测图像之间的差异来表示。两个方向上的感知损失/>和/>可以用于联合训练内容编码器220-1和解码器220-2、以及内容编码器420和另一解码器。

在考虑以上提到的各种损失之后，训练图4A示出的GAN结构400以及它的对称GAN结构的目标函数可以被确定为优化以下损失函数：

其中，参数λ_rec，λ_cyc和λ_per是预定值，用于平衡不同类型的损失。

在训练过程中，可以利用照片域和中间域的多个图像来迭代训练GAN结构400及其对称结构，从而不断更新其中的各个部分的参数值。在训练过程中，可以采用多种用于机器学习的训练技术可以用于训练GAN结构，诸如随机梯度下降法、前向传播、后向传播等。在达到总体损失函数(例如公式(8))的收敛之后，获得训练后的内容编码器220-1和解码器220-2被确定为第二学习网络220，以用于执行对域X中的给定第一图像的风格转换。GAN结构中的其他部分仅为了训练第二学习网络220的目的而配置的，无需在网络的使用阶段被采用。

从图4A的结构可以看出，组成第二学习网络220中解码器220-2可以选择不同风格相关联的外观相关特征表示用于对输入图像的同一内容相关特征表示进行变换，从而获得具有不同风格的输出。解码器220-2的这个特性使得灵活的风格输出成为可能。如以上提及的，在使用过程中，除了从基于训练图像获得的风格库中随机或由用户指定要转换的风格之后，还可以由用户输入具有某个风格的参考图像。可以由另外的子网络提取参考图像的外观相关特征表示，然后将所提取的外观相关特征表示提供给解码器220-2用于执行风格转换。

用于风格转换的学习网络的第二示例训练

以上图4A描述了如何训练在图2A中使用的第二学习网络220，经过这样的训练得到的第二学习网络220能够学习到如何对原始照片进行风格变换，以生成具有漫画风格的照片。在本公开的另外一些实现中，例如在图2B的实现中，期望第二学习网络220能够学习到如何对变形后的原始照片进行风格变换，以生成具有漫画风格的漫画。

第二学习网络220仍然基于实现多对多映射并且能够进行无监督学习的GAN网络。在训练数据方面，为了避免训练图像中几何形状差异的影响，将用于训练的照片域X中的第一图像通过几何变形而变换到中间域(被表示为X’)的中间图像。中间域X’介于照片域X与漫画域Y之间，中间图像保持与照片域X中的第一图像相同的风格，但是具有漫画域Y中对象的类似几何形状。可以通过对第一图像执行从照片域X到漫画域Y的几何变形来生成中间域X’的中间图像。在一些实现中，这种从域Y到域X的映射可以由训练后的第一学习网络210来执行。

基于中间域X’中的中间图像和漫画域Y中的第二图像来训练第二学习网络220，可以使第二学习网络220学习到从中间域X’到漫画域Y的风格变换的能力。由于中间域X’的风格与照片域X相同，这相当于第二学习网络220能够实现从照片域X到漫画域Y的风格变换。

图4B示出了在基于GAN的实现中用于训练第二学习网络220的GAN结构450。第二学习网络220的训练可以基于由相反的双向路径组成的循环一致性GAN结构，与图3和图4A类似。为了方便图像，图4B中仅示出了从域X’到域Y这个方向的第一路径。另一方向的第二路径可以对称地被构造和用于训练，类似于图3中的第二路径。

在具体训练时，GAN结构450中涉及的部件及其配置与图4A中的GAN结构400类似。然而，用于训练各个部件的输入不同。如图所示，GAN结构450包括由以下组成的前向生成器部分：针对域X’的内容编码器460(表示为)、风格编码器(表示为/>)，以及针对域Y’的解码器220-2(表示为R_Y)。风格编码器和解码器组成第二学习子网络220。GAN网络450还包括由以下组成的后向生成器部分：针对域Y的内容编码器470(表示为/>)、风格编码器480(表示为/>)、以及针对域X’的解码器490(R_X’)。GAN网络450还可以包括辨别器482。这些部件以与在图4A中类似布置的部件相似方式进行操作。

在具体训练时，GAN结构450中涉及的部件及其配置与图4A中的GAN结构400类似。然而，各个部件的输入不同。例如，在图4B示出的第一路径中，内容编码器220-1从输入的中间域X’的中间图像452提取内容相关特征表示453(也称为域X’的内容码)。多个中间图像提取的内容码组成一个内容库。风格编码器从中间图像452提取外观相关特征表示(也称为风格码)。从多个中间图像提取的外观相关特征表示组成一个风格库(例如，针对域X’的风格库S_X’451)。解码器490基于内容相关特征表示453和从风格库S_X’451中选择的外观相关特征表示来进行图像重构，以得到预测图像456。解码器220-2基于内容相关特征表示453和从针对域Y的风格库S_Y455中选择的外观相关特征表示来进行图像重构，以得到预测图像454(有时也称为第一预测图像)。

内容编码器470从预测图像454提取内容相关特征表示472，并且解码器490基于内容相关特征表示472和从风格库S_X’451中选择的外观相关特征表示进行图像重构，以得到预测图像458。内容480用于从预测图像454提取外观相关特征表示(也称为风格码)。从多个这样的重构图像中提取的风格码组成一个风格库(即针对域Y的风格库S_Y455)。

虽然用不同的训练图像来对这些部件进行训练，但训练时使用的训练算法，诸如所采用的损失函数的类型与图4A类似。训练时考虑的损失函数包括诸如以上公式(5)中的重构损失，其中I＝X’或Y。训练时考虑的损失函数还可以包括诸如公式(6)中从域Y到X’的循环一致性损失或者反向的从域X’到Y的循环一致性损失。

此外，损失函数还可以包括感知损失。在图4B的架构中，第一路径中的感知损失指的是对利用编码器220-1和解码器220-2执行风格变换之后的第一感测图像与输入的中间图像452在内容上的差异。这种差异可以基于从第一预测图像404与第一图像402分别提取的特征图，特别是与内容相关的特征图之间的差异来表示，诸如由公式(7)所描述的。训练过程将使得这个感知差异不断降低。在相反的第二路径上考虑感知损失时，感知损失指的是利用编码器220-1和解码器220-2对域Y的第二图像执行风格变换之后的感测图像(称为第二感测图像)与第二图像之间的内容差异降低。感知损失的确定也与图4A的架构中考虑的感知损失类似，在此不再赘述。

从图4B的结构可以看出，组成第二学习网络220中解码器220-2可以选择不同风格相关联的外观相关特征表示用于对中间图像的同一内容相关特征表示进行变换，从而获得具有不同风格的输出。解码器220-2的这个特性使得灵活的风格输出成为可能。如以上提及的，在使用过程中，除了从基于训练图像获得的风格库中随机或由用户指定要转换的风格之后，还可以由用户输入具有某个风格的参考图像。可以由另外的子网络提取参考图像的外观相关特征表示，然后将所提取的外观相关特征表示提供给解码器220-2用于执行风格转换。

示例过程

图5A示出了根据本公开一些实现的训练学习网络的过程500的流程图。过程500可以由计算设备100或者类似于计算设备100的其他设备或设备组来实现。

在框510，基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络。第一图像域和第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形。在框520，对第二图像执行从第二图像域到第一图像域的几何变形，以生成中间图像，中间图像保持与第二图像相同的风格。在框530，基于第一图像和中间图像来确定用于从第一图像域到第二图像域的风格变换的第二学习网络。

在一些实现中，确定第一学习网络包括：提取第一图像中的对象的几何形状的第一特征点和第二图像中的对象的几何形状的第二特征点；确定第一特征点的第一主成分分析(PCA)表示和第二组特征点的第二PCA表示；以及基于第一PCA表示和第二PCA表示来确定第一学习网络。

在一些实现中，第一学习网络基于第一生成式对抗网络(GAN)，并且其中确定第一学习网络包括：利用第一GAN的第一子网络对第一图像执行从第一图像域到第二图像域的几何变形，以将第一图像中的对象的第一几何形状变形为第一变形几何形状；确定第一几何形状与第一平均几何形状之间的第一差异以及第一变形几何形状与第二平均几何形状之间第二差异，第一平均几何形状是第一图像域中的多个图像中的对象的几何形状的平均，第二平均几何形状是第二图像域中的多个图像中的对象的几何形状的平均；以及更新第一GAN的第一子网络，以使得第一差异与第二差异之间的差异降低，其中更新后的第一子网络被确定为第一学习网络。

在一些实现中，更新第一GAN的第一子网络进一步包括：利用第一GAN的第二子网络对第二图像执行从第二图像域到第一图像域的几何变形，以将第二图像中的对象的第二几何形状变形为第二变形几何形状；确定第二几何形状与第二平均几何形状之间的第三差异以及第二变形几何形状与第一平均几何形状之间的第四差异；以及联合更新第一GAN的第一子网络和第二子网络，以进一步使第三差异与第四差异之间的差异降低。

在一些实现中，执行从第二图像域到第一图像域的几何变形包括：利用更新后的第二子网络来执行从第二图像域到第一图像域的几何变形。

在一些实现中，第二学习网络基于第二生成式对抗网络(GAN)，并且其中确定第二学习网络包括：利用第二GAN的第一子网络对第一图像执行从第一图像域到第二图像域的风格变换，以将具有第一风格的第一图像变换为具有第二风格的第一预测图像，第二风格从第二图像域中的多个风格中随机选择；以及更新第二GAN的第一子网络，以使第一预测图像与第一图像在内容上的差异降低，其中更新后的第一子网络被确定为第二学习网络。

在一些实现中，更新第二GAN的第一子网络进一步包括：利用第二GAN的第二子网络对中间图像执行从第二图像域到第一图像域的风格变换，以将具有第三风格的中间图像变换为具有第四风格的第二预测图像，第四风格从第一图像域中的多个风格中随机选择；以及联合更新第二GAN的第一子网络和第二子网络，以进一步使第二预测图像与中间图像在内容上的差异降低。

图5B示出了根据本公开的另一些实现的训练学习网络的过程550的流程图。过程550可以由计算设备100或者类似于计算设备100的其他设备或设备组来实现。

在框560，基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络。第一图像域和第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形。在框570，对第一图像执行从第一图像域到第二图像域的几何变形，以生成中间图像，中间图像保持与第一图像相同的风格。在框580，基于中间图像和第二图像来确定用于从第一图像域到第二图像域的风格变换的第二学习网络。

在一些实现中，第一学习网络基于第一生成式对抗网络(GAN)。确定第一学习网络包括：利用第一GAN的第一子网络对第一图像执行从第一图像域到第二图像域的几何变形，以将第一图像中的对象的第一几何形状变形为第一变形几何形状；确定第一几何形状与第一平均几何形状之间的第一差异以及第一变形几何形状与第二平均几何形状之间第二差异，第一平均几何形状是第一图像域中的多个图像中的对象的几何形状的平均，第二平均几何形状是第二图像域中的多个图像中的对象的几何形状的平均；以及更新第一GAN的第一子网络，以使得第一差异与第二差异之间的差异降低，其中更新后的第一子网络被确定为第一学习网络。

在一些实现中，第二学习网络基于第二生成式对抗网络(GAN)。确定第二学习网络包括：利用第二GAN的第一子网络对中间图像执行从第一图像域到第二图像域的风格变换，以将具有第一风格的中间图像变换为具有第二风格的第一预测图像，第二风格从第二图像域中的多个风格中随机选择；以及更新第二GAN的第一子网络，以使第一预测图像与第一图像在内容上的差异降低，其中更新后的第一子网络被确定为第二学习网络。

在一些实现中，更新第二GAN的第一子网络进一步包括：利用第二GAN的第二子网络对第二图像执行从第二图像域到第一图像域的风格变换，以将具有第三风格的第二图像变换为具有第四风格的第二预测图像，第四风格从第一图像域中的多个风格中随机选择；以及联合更新第二GAN的第一子网络和第二子网络，以进一步使第二预测图像与第二图像在内容上的差异降低。

图6A示出了根据本公开的一些实现的用于跨越的图像转换的过程600的流程图。过程600可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的图像转换模块122处。

在框610，对源图像执行几何变形，以将源图像中的对象的第一几何形状变形为第二几何形状。在框620，对源图像执行风格变换，以将具有第一风格的源图像变换为具有第二风格的中间图像。在框630，基于第二几何形状来变换中间图像中的对象，以生成目标图像。目标图像保持与中间图像相同的第二风格。

在一些实现中，执行几何变形包括：确定源图像中表示第一几何形状的特征点；生成特征点的主成分分析(PCA)表示；对PCA表示执行几何变形；以及基于变形后的PCA表示来确定表示第二几何形状的变形特征点。

在一些实现中，执行几何变形包括：获取针对对象的变形程度的指示；以及基于变形程度，将第一几何形状变换到第二几何形状。

在一些实现中，对源图像执行风格变换包括：提取源图像的内容相关特征表示；确定与第二风格相关联的外观相关特征表示；以及基于内容相关特征表示和外观相关特征表示来生成中间图像。

在一些实现中，确定外观相关特征表示包括：从预定的多个外观相关特征表示中随机选择外观相关特征表示；或者基于获取的关于第二风格的指示或具有第二风格的参考图像来确定外观相关特征表示。

在一些实现中，执行几何变形包括利用第一学习网络来执行几何变形，第一学习网络基于生成式对抗网络(GAN)被确定。在一些实现中，执行风格变换包括利用第二学习网络来执行风格变换，第二学习网络基于另一生成式对抗网络(GAN)被确定。

图6B示出了根据本公开的一些实现的用于跨越的图像转换的过程650的流程图。过程650可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的图像转换模块122处。

在框660，对源图像执行几何变形，以将源图像中的对象的第一几何形状变形为第二几何形状。在框670，基于第二几何形状来变换源图像中的对象，以生成中间图像，中间图像具有与源图像相同的第一风格。在框680，对中间图像执行风格变换，以将具有第一风格的中间图像变换为具有第二风格的目标图像。

示例实现方式

以下列出了本公开的一些示例实现方式。

在第一方面，本公开提供了一种计算机实现的方法。该方法包括：基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络，第一图像域和第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形；对第二图像执行从第二图像域到第一图像域的几何变形，以生成中间图像，中间图像保持与第二图像相同的风格；以及基于第一图像和中间图像来确定用于从第一图像域到第二图像域的风格变换的第二学习网络。

在第二方面，本公开提供了一种电子设备。该设备包括处理单元；存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络，第一图像域和第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形；对第二图像执行从第二图像域到第一图像域的几何变形，以生成中间图像，中间图像保持与第二图像相同的风格；以及基于第一图像和中间图像来确定用于从第一图像域到第二图像域的风格变换的第二学习网络。

在第三方面，本公开提供了一种计算机实现的方法。该方法包括：基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络。第一图像域和第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形；对第一图像执行从第一图像域到第二图像域的几何变形，以生成中间图像，中间图像保持与第一图像相同的风格；以及基于中间图像和第二图像来确定用于从第一图像域到第二图像域的风格变换的第二学习网络。

在第四方面，本公开提供了一种电子设备。该设备包括处理单元；存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从第一图像域到第二图像域的几何变形的第一学习网络。第一图像域和第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形；对第一图像执行从第一图像域到第二图像域的几何变形，以生成中间图像，中间图像保持与第一图像相同的风格；以及基于中间图像和第二图像来确定用于从第一图像域到第二图像域的风格变换的第二学习网络。

在第五方面，本公开提供了一种计算机实现的方法。该方法包括：对源图像执行几何变形，以将源图像中的对象的第一几何形状变形为第二几何形状；对源图像执行风格变换，以将具有第一风格的源图像变换为具有第二风格的中间图像；以及基于第二几何形状来变换中间图像中的对象，以生成目标图像，目标图像保持与中间图像相同的第二风格。

在第六方面，本公开提供了一种电子设备。该设备包括处理单元；存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：对源图像执行几何变形，以将源图像中的对象的第一几何形状变形为第二几何形状；对源图像执行风格变换，以将具有第一风格的源图像变换为具有第二风格的中间图像；以及基于第二几何形状来变换中间图像中的对象，以生成目标图像，目标图像保持与中间图像相同的第二风格。

在第七方面，本公开提供了一种计算机实现的方法。该方法包括：对源图像执行几何变形，以将源图像中的对象的第一几何形状变形为第二几何形状；基于第二几何形状来变换源图像中的对象，以生成中间图像，中间图像具有与源图像相同的第一风格；以及对中间图像执行风格变换，以将具有第一风格的中间图像变换为具有第二风格的目标图像。

在第八方面，本公开提供了一种电子设备。该设备包括处理单元；存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：对源图像执行几何变形，以将源图像中的对象的第一几何形状变形为第二几何形状；基于第二几何形状来变换源图像中的对象，以生成中间图像，中间图像具有与源图像相同的第一风格；以及对中间图像执行风格变换，以将具有第一风格的中间图像变换为具有第二风格的目标图像。

在第十方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备执行上述任一方面的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实现的方法，包括：

基于第一图像域中的第一图像和第二图像域中的第二图像来确定用于从所述第一图像域到所述第二图像域的几何变形的第一学习网络，所述第一图像域和所述第二图像域的图像具有不同的风格并且其中的对象相对彼此具有几何变形，其中所述第一学习网络基于第一生成式对抗网络GAN，并且其中确定所述第一学习网络包括：

利用所述第一GAN的第一子网络对所述第一图像执行从所述第一图像域到所述第二图像域的几何变形，以将所述第一图像中的对象的第一几何形状变形为第一变形几何形状；

确定所述第一几何形状与第一平均几何形状之间的第一差异以及所述第一变形几何形状与第二平均几何形状之间第二差异，所述第一平均几何形状是所述第一图像域中的多个图像中的对象的几何形状的平均，并且所述第二平均几何形状是所述第二图像域中的多个图像中的对象的几何形状的平均；以及

更新所述第一GAN的所述第一子网络，以使得所述第一差异与所述第二差异之间的差异降低，其中更新后的第一子网络被确定为所述第一学习网络；

对所述第二图像执行从所述第二图像域到所述第一图像域的几何变形，以生成中间图像，所述中间图像保持与所述第二图像相同的风格；以及

基于所述第一图像和所述中间图像来确定用于从所述第一图像域到所述第二图像域的风格变换的第二学习网络。

2.根据权利要求1所述的方法，其中确定所述第一学习网络包括：

提取所述第一图像中的对象的几何形状的第一特征点和所述第二图像中的对象的几何形状的第二特征点；

确定所述第一特征点的第一主成分分析PCA表示和所述第二特征点的第二PCA表示；以及

基于所述第一PCA表示和第二PCA表示来确定所述第一学习网络。

3.根据权利要求1所述的方法，其中更新所述第一GAN的所述第一子网络进一步包括：

利用所述第一GAN的第二子网络对所述第二图像执行从所述第二图像域到所述第一图像域的几何变形，以将所述第二图像中的对象的第二几何形状变形为第二变形几何形状；

确定所述第二几何形状与所述第二平均几何形状之间的第三差异以及所述第二变形几何形状与所述第一平均几何形状之间的第四差异；以及

联合更新所述第一GAN的所述第一子网络和所述第二子网络，以进一步使所述第三差异与所述第四差异之间的差异降低。

4.根据权利要求3所述的方法，其中执行从所述第二图像域到所述第一图像域的几何变形包括：

利用更新后的第二子网络来执行从所述第二图像域到所述第一图像域的几何变形。

5.根据权利要求1所述的方法，其中所述第二学习网络基于第二生成式对抗网络GAN，并且其中确定所述第二学习网络包括：

利用所述第二GAN的第一子网络对所述第一图像执行从所述第一图像域到所述第二图像域的风格变换，以将具有第一风格的所述第一图像变换为具有第二风格的第一预测图像，所述第二风格从所述第二图像域中的多个风格中随机选择；以及

更新所述第二GAN的所述第一子网络，以使所述第一预测图像与所述第一图像在内容上的差异降低，

其中更新后的所述第一子网络被确定为所述第二学习网络。

6.根据权利要求5所述的方法，其中更新所述第二GAN的所述第一子网络进一步包括：

利用所述第二GAN的第二子网络对所述中间图像执行从所述第二图像域到所述第一图像域的风格变换，以将具有第三风格的所述中间图像变换为具有第四风格的第二预测图像，所述第四风格从所述第一图像域中的多个风格中随机选择；以及

联合更新所述第二GAN的所述第一子网络和所述第二子网络，以进一步使所述第二预测图像与所述中间图像在内容上的差异降低。

7.一种计算机实现的方法，包括：

对源图像执行几何变形，以将所述源图像中的对象的第一几何形状变形为第二几何形状；

利用第二学习网络对所述源图像执行风格变换，以将具有第一风格的所述源图像变换为具有第二风格的中间图像，其中所述第二学习网络基于第二生成式对抗网络GAN，并且所述第二学习网络是通过如下来确定的：

利用第二GAN的第一子网络对第一图像执行从第一图像域到第二图像域的风格变换，以将具有所述第一风格的所述第一图像变换为具有所述第二风格的第一预测图像；以及

更新所述第二GAN的所述第一子网络，以使所述第一预测图像与所述第一图像在内容上的差异降低，其中更新后的所述第一子网络被确定为所述第二学习网络；以及

通过在变形后的第二几何形状的引导下对所述中间图像执行图像扭曲，基于所述源图像的所述第二几何形状和所述中间图像的所述第二风格来生成目标图像，使得所述目标图像中的对象具有所述第二几何形状，同时所述目标图像的风格保持与所述中间图像的所述第二风格一致。

8.根据权利要求7所述的方法，其中执行所述几何变形包括：

确定所述源图像中表示所述第一几何形状的特征点；

生成所述特征点的主成分分析PCA表示；

对所述PCA表示执行所述几何变形；以及

基于变形后的所述PCA表示来确定表示所述第二几何形状的变形特征点。

9.根据权利要求7所述的方法，其中执行所述几何变形包括：

获取针对所述对象的变形程度的指示；以及

基于所述变形程度，将所述第一几何形状变换到所述第二几何形状。

10.根据权利要求7所述的方法，其中对所述源图像执行风格变换包括：

提取所述源图像的内容相关特征表示；

确定与所述第二风格相关联的外观相关特征表示；以及

基于所述内容相关特征表示和所述外观相关特征表示来生成所述中间图像。

11.根据权利要求10所述的方法，其中确定外观相关特征表示包括：

从预定的多个外观相关特征表示中随机选择所述外观相关特征表示；或者

基于获取的关于所述第二风格的指示或具有所述第二风格的参考图像来确定所述外观相关特征表示。

12.根据权利要求7所述的方法，其中执行所述几何变形包括利用第一学习网络来执行所述几何变形，所述第一学习网络基于生成式对抗网络GAN被确定。