CN108038823A

CN108038823A - 图像型变网络模型的训练方法、图像型变方法及计算设备

Info

Publication number: CN108038823A
Application number: CN201711276182.5A
Authority: CN
Inventors: 洪炜冬; 张伟; 许清泉; 李志阳; 傅松林
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-05-15
Anticipated expiration: 2037-12-06
Also published as: CN108038823B

Abstract

本发明公开了一种图像型变网络模型的训练方法，该方法适于在计算设备中执行，包括步骤：按照型变效果将训练图像分为表征型变前状态的第一图像和表征型变后状态的第二图像；将第一图像输入图像型变网络模型的生成器，经多层卷积处理后输出型变参数；对型变参数和对应的第一图像进行双线性插值处理，生成该第一图像的型变后图像；将型变后图像与第二图像输入图像型变网络模型的判别器中，以识别型变后图像为真实图像的概率；以及利用多个第一图像和第二图像对生成器和判别器进行训练，直到型变后图像为真实图像的概率达到预定值为止。本发明一并公开了一种图像型变方法和相应的图像型变网络训练模型和图像型变网络生成模型、及相应的计算设备。

Description

图像型变网络模型的训练方法、图像型变方法及计算设备

技术领域

本发明涉及图像处理技术领域，尤其是图像型变网络模型的训练方法、图像型变方法及计算设备。

背景技术

在对拍摄的图片或视频进行处理的过程中，经常要对被拍摄的客体(以下称为“待处理对象”)进行型变处理，或是对素材进行型变处理后与待处理对象进行贴合，例如：让待处理对象从不笑变笑、对待处理对象进行瘦脸、上妆等处理。类似的处理通常需要先定制型变规则，而后通过型变算法对待处理对象按照设定的规则进行型变。然而，上述处理方案存在以下问题：型变规则制定不自然、型变容易产生人工操作痕迹、型变复杂度较高等等。

现有的图像型变算法中，以人脸型变算法举例，首先获取待处理对象的人脸特征点、定位出人脸五官具体位置；而后通过人脸网格算法将人脸各个部分切分成大量三角网格；通过制定三角网格型变规则，例如在人脸变笑处理中，制定规则为将人脸嘴角上提、双唇分开，从而将相应位置三角网格进行型变拉伸等处理造成人脸变笑的假象。但这样制定的规则存在着严重的人工痕迹，比如，人脸笑容不仅是嘴巴的变化，同时还存在着脸部肌肉变动、眼睛眉毛等整体五官的变化，此外，每个人的变化都不相同，很难用同一套规则进行自然型变。

因此，需要一种图像型变方案，能够提供型变效果自然的型变图像。

发明内容

为此，本发明提供了图像型变网络模型的训练方法、图像型变方法及计算设备，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种图像型变网络模型的训练方法，图像型变网络模型适于对输入图像进行型变处理，以输出符合型变效果的图像，该方法适于在计算设备中执行，包括步骤：按照型变效果将训练图像分为表征型变前状态的第一图像和表征型变后状态的第二图像；将第一图像输入图像型变网络模型的生成器，经多层卷积处理后输出型变参数；对型变参数和对应的第一图像进行双线性插值处理，生成该第一图像的型变后图像；将型变后图像与第二图像输入所述图像型变网络模型的判别器中，以识别型变后图像为真实图像的概率；以及利用多个第一图像和第二图像对生成器和判别器进行训练，直到型变后图像为真实图像的概率达到预定值为止。

可选地，在根据本发明的训练方法中，还包括预先生成训练图像的步骤：从图像素材库中裁剪出图像的待型变区域，作为待处理图像；以及通过对待处理图像进行缩放变换生成训练图像。

可选地，在根据本发明的训练方法中，利用多个第一图像和第二图像对生成器和判别器进行训练的步骤还包括：采用单独交替迭代训练的方式对生成器和判别器分别进行训练优化。

可选地，在根据本发明的训练方法中，训练生成器的损失函数为：

其中，x为输入的第一图像，P_g是生成的第一图像的型变后图像的样本分布，D(x)为判别器的输出结果。

可选地，在根据本发明的训练方法中，训练判别器的损失函数为：

其中，x为输入的第一图像，P_r是第二图像的样本分布，P_g是生成的第一图像的型变后图像的样本分布，D(x)为判别器的输出结果。

可选地，在根据本发明的训练方法中，将第一图像输入图像型变网络模型的生成器，经多层卷积处理后输出型变参数的步骤包括：将第一图像输入图像型变网络模型的生成器，输出两帧新图像作为型变参数，其中，两帧新图像中每个像素点的像素值分别表征该像素点在第一图像水平方向和垂直方向上的索引。

可选地，在根据本发明的训练方法中，生成器的网络结构采用编码器-解码器结构。

可选地，在根据本发明的训练方法中，生成器的网络结构采用U-Net结构。

根据本发明的另一个方面，提供了一种图像型变方法，该方法适于通过图像型变网络模型对输入图像进行型变处理，以输出符合型变效果的图像，该方法适于在计算设备上执行，包括步骤：执行如上所述的训练方法，训练得到图像型变网络模型；以及将待型变图像输入到所训练得到的图像型变网络模型中，经图像型变网络模型中的生成器处理后生成型变参数，对型变参数和待型变图像进行双线性插值处理，以生成符合型变效果的图像。

根据本发明的又一方面，提供了一种图像型变网络训练模型，用于利用训练图像训练生成图像型变网络生成模型，图像型变网络生成模型用于生成符合型变效果的图像，图像型变网络训练模型包括：生成网络，采用编码器-解码器结构，适于通过多层卷积、下采样、上采样处理后计算出输入的第一图像的型变参数；双线性插值层，适于根据第一图像和对应的型变参数插值出符合型变效果的图像，作为型变后图像；以及判别网络，适于通过学习第二图像来判别所述型变后图像为真实图像的概率，其中，第一图像表征型变前状态，第二图像表征型变后状态。

可选地，在根据本发明的图像型变网络训练模型中，在生成网络中，编码器部分每一层卷积的卷积核个数依次为：64、128、256、512、512、512、512、512；以及解码器部分每一层卷积的卷积核个数依次为：512、1024、1024、1024、1024、512、256、128。

可选地，在根据本发明的图像型变网络训练模型中，在生成网络中，编码器部分的所有卷积层均选用LeakyReLU激活函数；解码器部分的最后一个输出层选用Tanh激活函数，其它卷积层选用ReLU激活函数。

可选地，在根据本发明的图像型变网络训练模型中，生成网络采用U-Net网络结构。

可选地，在根据本发明的图像型变网络训练模型中，在判别网络中，所有卷积层均选用LeakyReLU激活函数。

根据本发明的再一方面，提供了一种图像型变网络生成模型，用于对输入图像进行型变处理，以输出符合型变效果的图像，图像型变网络生成模型包括：生成网络，采用编码器-解码器结构，适于通过多层卷积、下采样、上采样处理后计算出输入图像的型变参数；以及双线性插值层，适于根据输入图像和型变参数插值出符合型变效果的图像。

可选地，在根据本发明的图像型变网络生成模型中，在生成网络中，编码器部分每一层卷积的卷积核个数依次为：64、128、256、512、512、512、512、512；以及解码器部分每一层卷积的卷积核个数依次为：512、1024、1024、1024、1024、512、256、128。

可选地，在根据本发明的图像型变网络生成模型中，在生成网络中，编码器部分的所有卷积层均选用LeakyReLU激活函数；解码器部分的最后一个输出层选用Tanh激活函数，其它卷积层选用ReLU激活函数。

可选地，在根据本发明的图像型变网络生成模型中，生成网络采用U-Net网络结构。

根据本发明的再一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明的图像型变方案，通过深度学习中的生成对抗网络思想生成型变参数，这样的型变方案具有通用性，只需要挑出具有型变前效果和型变后效果的训练图像，即可通过训练实现自适应型变规则(不论是人脸型变、人体其他部分型变、还是其它动物身体部位的型变、建筑物型变等，均可采用本发明的型变方案)。不同于传统方案中手动设置型变规则，使得型变后的图片更加自然、真实，且每张图片有各自的型变样式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图；

图2示出了根据本发明一个实施例的图像型变网络模型的训练方法200的流程图；

图3示出了根据本发明一个实施例的图像型变方法300的流程图；

图4示出了根据本发明一个实施例的图像型变网络训练模型400的结构示意图；以及

图5示出了根据本发明一个实施例的图像型变网络生成模型500的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行图像型变网络模型的训练方法200和图像型变方法300，程序数据124中就包含了用于执行上述方法的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

图2示出了根据本发明一个实施例的图像型变网络模型的训练方法200的流程图。根据本发明的实现方式，图像型变网络模型采用生成对抗网络思想，生成对抗网络一般包含两个部分：生成网络和判别网络。其中，生成网络的任务是去生成一个看起来像真的图片一样的图片(即“伪图片”)，而判别网络用于判断一个给定的图片是不是真实的图片。训练图像型变网络模型的过程就是将生成网络和判别网络一起对抗训练，生成网络产生一张图片去欺骗判别网络，然后判别网络去判断这张图片是真是假。在这两个网络训练的过程中，两个网络的能力越来越强，最终达到稳态。训练后的图像型变网络模型就可以对输入图像进行型变处理，输出符合型变效果的图像。

以下将结合图2，说明本发明中图像型变网络模型的训练方法200的执行步骤。

方法200始于步骤S210，按照型变效果将训练图像分为表征型变前状态的第一图像和表征型变后状态的第二图像。

根据本发明的一个实施例，可人工将训练图像挑为两类，一类代表型变前状态(即第一图像)，另一类代表型变后状态(即第二图像)。例如要将人脸变笑，人工从大量训练图像中挑出两类：一类图像中的人脸都是不笑的，代表型变前状态(即，处理前效果)，一类图像中的人脸都是笑的，代表型变后状态(即，处理后效果)。

根据一种实现方式，训练图像可以从各种图像素材库中进行筛选，一般针对型变效果尽量选取包含各种情况和状态的图像即可。根据本发明的一个实施例，还会对选取出的图像进行预处理以生成训练图像。具体可分为如下两步：①从图像素材库中裁剪出图像的待型变区域，作为待处理图像，例如要处理人脸，就通过人脸检测算法检测出图像中的人脸区域，再将人脸区域裁剪出来作为待处理图像；②通过对待处理图像进行一定程度的缩放变换得到训练图像，以保持所有训练图像的尺寸一致。例如设定训练图像的尺寸为368×368，则需要对裁剪出的待处理图像进行缩小或放大处理，使得所有待处理图像的尺寸都满足368×368。

需要说明的是，本发明的方法不局限于人脸处理，待型变区域可以是人体的某个部分、也可以是动物、景物等。

随后在步骤S220中，将第一图像输入图像型变网络模型的生成器，经多层卷积处理后输出型变参数。根据本发明的一个实施例，生成器的网络结构采用编码器-解码器结构。可选地，生成器的网络结构采用U-Net结构。关于U-Net网络结构的描述此处不作展开，关于生成器具体网络结构参数可参见后文对于生成网络410的相关描述。

在根据本发明的实施例中，将第一图像输入到图像型变网络模型的生成器，输出两帧新图像作为型变参数(而不是一帧“伪图像”)。换句话说，型变参数包含了两帧新图像中每个像素点的坐标及像素点值。这两帧新图像与输入的第一图像大小一致，且，两帧新图像中每个像素点的像素值分别表征该像素点在第一图像水平方向和垂直方向上的索引。

换句话说，两帧新图像中每个像素点的像素值分别代表了该像素点在原图(即，输入的第一图像)x轴上什么位置(原图x方向的索引)、在原图y轴上什么位置(原图y方向的索引)。比如说这两个新图像中(1,1)位置处的像素值分别为10、20，则代表型变参数(1,1)指向的是原图像素点(10,20)位置。

随后在步骤S230中，对型变参数和对应的第一图像进行双线性插值处理，生成该第一图像的型变后图像。如步骤S220所述，新图像中每个像素点的像素值代表了该像素点在第一图像上x轴和y轴上的位置，比如，在两帧新图像中像素点(1,1)位置处的像素值分别为10、20，那么，根据型变参数的索引，插值出的新图像(即型变后图像)在像素点位置(1,1)的像素值等于原来第一图像在像素点(10,20)的像素值。双线性插值处理的目的就是根据型变参数和第一图像的像素点关系逐像素逐像素地构建出新的图像作为型变后图像。这样做的好处是，根据型变参数插值出的第一图像的型变后图像，其所有像素点的像素值均来自于第一图像，这样，型变效果会更加自然真实。

随后在步骤S240中，将型变后图像与第二图像输入图像型变网络模型的判别器中，以识别型变后图像为真实图像的概率。也就是说，将经步骤S230处理后生成的型变后图像Ig作为负样本(即，伪图像)、将经步骤S210挑选出的第二图像It作为正样本(即，真实图像)，输入判别器中进行训练，判别器通过分类区分输入图片是生成图片Ig或是真实图片It，并输出一个概率值用以表示输入图像是真实图像的概率。

随后在步骤S250中，利用多个第一图像和第二图像对生成器和判别器进行训练，直到型变后图像为真实图像的概率达到预定值为止。

根据本发明的实施例，采用单独交替迭代训练的方式对生成器和判别器分别进行训练优化。也就是说，根据生成器和判别器的损失函数分别按照自己的需要去实现不同的误差修正，例如，选择随机优化算法作为误差修正算法，更新模型参数。轮流优化生成器和判别器，先根据生成器的损失函数优化一遍判别器，再根据判别器的损失函数优化一遍生成器，再优化判别器…往复循环。可选地，随机优化算法选用ADAM(adaptive momentestimation)算法。

其中，训练生成器的损失函数为：

而训练判别器的损失函数为：

根据训练方法200即可训练生成图像型变网络模型，图3示出了根据本发明一个实施例的利用训练方法200训练生成的图像型变网络模型进行图像型变的方法300的流程图。

方法300始于步骤S310，执行训练方法200，训练得到图像型变网络模型。训练方法200的执行流程可参见前文关于图2的相关描述，此处不作赘述。

随后在步骤S320中，将待型变图像输入到所训练得到的图像型变网络模型中，经图像型变网络模型中的生成器处理后生成型变参数，对型变参数和待型变图像进行双线性插值处理，以生成符合型变效果的图像。

双线性插值的处理同前文所述，即，根据型变参数所包含的两帧新图像中每个像素点位置的像素值、得到型变后图像在该像素点位置所对应的待型变图像的像素点位置，进而得到型变后图像的像素值。

为进一步说明上述图像型变网络模型的训练过程和生成过程，图4示出了根据本发明一个实施例的图像型变网络训练模型400的网络结构，图5示出了根据本发明一个实施例的图像型变网络生成模型500的网络结构。其中，图像型变网络训练模型400与训练方法200相对应，图像型变网络训练模型400用于执行训练方法200；图像型变网络生成模型500与图像型变方法300相对应，图像型变网络生成模型500用于执行图像型变方法300，生成符合型变效果的图像。

如前文所述，图像型变网络训练模型400采用生成对抗网络思想，根据本发明一个实施例，图像型变网络训练模型400包括：生成网络410、双线性插值层420和判别网络430，如图4所示。

生成网络410采用编码器-解码器结构，通过多层卷积、下采样、上采样处理后计算出输入的第一图像的型变参数。其中，将训练图像分为表征型变前状态的第一图像和表征型变后状态的第二图像。对于训练图像的选取和预处理此处不再累述，可结合关于图2的描述进行理解。

根据本发明的一个实施例，生成网络410采用U-Net网络结构。具体地，在生成网络410中，选用2×2大小的卷积核，编码器部分的下采样采用max pooling最大值池化的方式，池化步长为2，解码器部分的上采样过程与下采样相对应，上采样步长也是2。进一步地，编码器部分每一层卷积的卷积核个数依次为：64、128、256、512、512、512、512、512，解码器部分每一层卷积的卷积核个数依次为：512、1024、1024、1024、1024、512、256、128。并且，编码器部分的所有卷积层均选用LeakyReLU激活函数，而解码器部分的最后一个输出层选用Tanh激活函数，其它卷积层选用ReLU激活函数。

双线性插值层420与生成网络410相连，根据第一图像和对应的型变参数插值出符合型变效果的图像，作为型变后图像。

结合图2相关描述可知，生成网络410输出的型变参数为两帧与输入图像相同尺寸的新图像。根据新图像中每个像素点位置的像素值所表征的该像素点在第一图像上的索引就能够插值出型变后图像。

判别网络430与双线性插值层420相连，通过学习第二图像来判别型变后图像为真实图像的概率。

根据本发明一个实施例，在判别网络430中，通过多层卷积得到最终的概率值，其中，卷积核大小依采用2×2，所有卷积层均选用LeakyReLU激活函数。以一个70×70的判别网络为例，其中每一层卷积的卷积核个数依次为：64、128、256、512，并且，最后一层卷积通过Sigmoid函数将卷积结果映射到一维的结果输出。

关于生成网络和判别网络进一步地描述可参见Phillip Isola,Jun-Yan Zhu 等人的论文“Image-to-Image Translation with Conditional Adversarial Networks”。

在训练过程中，可以将生成网络410和双线性插值层420看作一个整体，其生成了型变后图像(即前文所述的生成的伪图像)，与判别网络430轮流交替训练，直到型变后图像为真实图像的概率达到预定值为止。

图5示出了根据本发明一个实施例的图像型变网络生成模型500的网络结构，从网络结构来看，与图像型变网络训练模型400区别在于，图像型变网络生成模型500仅包含生成网络510和双线性插值层520。

其中，生成网络510采用编码器-解码器结构，适于通过多层卷积、下采样、上采样处理后计算出输入图像的型变参数。双线性插值层520根据输入图像和型变参数插值出符合型变效果的图像。

同样地，生成网络510采用U-Net网络结构。具体地，在生成网络510中，选用2×2大小的卷积核，编码器部分的下采样采用max pooling最大值池化的方式，池化步长为2，解码器部分的上采样过程与下采样相对应，上采样步长也是2。进一步地，编码器部分每一层卷积的卷积核个数依次为：64、128、256、512、512、512、512、512，解码器部分每一层卷积的卷积核个数依次为：512、1024、1024、1024、1024、512、256、128。并且，编码器部分的所有卷积层均选用LeakyReLU激活函数，而解码器部分的最后一个输出层选用Tanh激活函数，其它卷积层选用ReLU激活函数。

也就是说，在通过图像型变网络训练模型400执行训练方法200完成训练后，就说明此时的生成图像与真实图像能够保持一致，此时可抛弃判别网络部分，由训练好的生成网络和双线性插值层构成图像型变网络生成模型，直接输入一张型变前图像，通过生成网络和双线性插值层处理后，输出型变后图像。

另外，若是利用生成网络直接生成型变后图像，生成的图片由于不是从原图索引而来，可能会存在不符合原图现实的像素点，使得整个型变过程不可控。而根据本发明的方案，生成网络生成的不再是一张图片，而是表征原图索引的型变参数，这样就保证了生成过程的可控性，保证了型变后图像的所有像素点均来自原图(待型变图像)，避免了生成网络随意发挥。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明还公开了：

A6、如A1-5中任一项所述的方法，其中，所述将第一图像输入图像型变网络模型的生成器，经多层卷积处理后输出型变参数的步骤包括：将第一图像输入图像型变网络模型的生成器，输出两帧新图像作为型变参数，其中，两帧新图像中每个像素点的像素值分别表征该像素点在第一图像水平方向和垂直方向上的索引。

A7、如A1-6中任一项所述的方法，其中，所述生成器的网络结构采用编码器-解码器结构。

A8、如A1-6中任一项所述的方法，其中，所述生成器的网络结构采用U-Net结构。

B11、如B10所述的图像型变网络训练模型，在所述生成网络中，编码器部分每一层卷积的卷积核个数依次为：64、128、256、512、512、512、512、512；以及解码器部分每一层卷积的卷积核个数依次为：512、1024、1024、1024、1024、512、256、128。

B12、如B11所述的图像型变网络训练模型，在所述生成网络中，编码器部分的所有卷积层均选用LeakyReLU激活函数；解码器部分的最后一个输出层选用Tanh激活函数，其它卷积层选用ReLU激活函数。

B13、如B10-12中任一项所述的图像型变网络训练模型，其中，所述生成网络采用U-Net网络结构。

B14、如B10-13中任一项所述的图像型变网络训练模型，在所述判别网络中，所有卷积层均选用LeakyReLU激活函数。

C16、如C15所述的图像型变网络生成模型，在所述生成网络中，编码器部分每一层卷积的卷积核个数依次为：64、128、256、512、512、512、512、512；以及解码器部分每一层卷积的卷积核个数依次为：512、1024、1024、1024、1024、512、256、128。

C17、如C16所述的图像型变网络生成模型，在所述生成网络中，编码器部分的所有卷积层均选用LeakyReLU激活函数；解码器部分的最后一个输出层选用Tanh激活函数，其它卷积层选用ReLU激活函数。

C18、如C15-17中任一项所述的图像型变网络生成模型，其中，所述生成网络采用U-Net网络结构。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种图像型变网络模型的训练方法，所述图像型变网络模型适于对输入图像进行型变处理，以输出符合型变效果的图像，所述方法适于在计算设备中执行，所述方法包括步骤：

按照型变效果将训练图像分为表征型变前状态的第一图像和表征型变后状态的第二图像；

将所述第一图像输入图像型变网络模型的生成器，经多层卷积处理后输出型变参数；

对所述型变参数和对应的第一图像进行双线性插值处理，生成该第一图像的型变后图像；

将所述型变后图像与第二图像输入所述图像型变网络模型的判别器中，以识别所述型变后图像为真实图像的概率；以及

利用多个第一图像和第二图像对生成器和判别器进行训练，直到型变后图像为真实图像的概率达到预定值为止。

2.如权利要求1所述的方法，还包括预先生成训练图像的步骤：

从图像素材库中裁剪出图像的待型变区域，作为待处理图像；以及

通过对所述待处理图像进行缩放变换生成训练图像。

3.如权利要求1或2所述的方法，其中，利用多个第一图像和第二图像对生成器和判别器进行训练的步骤还包括：

采用单独交替迭代训练的方式对生成器和判别器分别进行训练优化。

4.如权利要求3所述的方法，其中，训练生成器的损失函数为：

5.如权利要求3或4所述的方法，其中，训练判别器的损失函数为：

6.一种图像型变方法，所述方法适于通过图像型变网络模型对输入图像进行型变处理，以输出符合型变效果的图像，所述方法适于在计算设备上执行，所述方法包括步骤：

执行如权利要求1-5中任一项所述的训练方法，训练得到图像型变网络模型；以及

将待型变图像输入到所训练得到的图像型变网络模型中，经图像型变网络模型中的生成器处理后生成型变参数，对型变参数和待型变图像进行双线性插值处理，以生成符合型变效果的图像。

7.一种图像型变网络训练模型，用于利用训练图像训练生成图像型变网络生成模型，所述图像型变网络生成模型用于生成符合型变效果的图像，所述图像型变网络训练模型包括：

生成网络，采用编码器-解码器结构，适于通过多层卷积、下采样、上采样处理后计算出输入的第一图像的型变参数；

双线性插值层，适于根据第一图像和对应的型变参数插值出符合型变效果的图像，作为型变后图像；以及

判别网络，适于通过学习第二图像来判别所述型变后图像为真实图像的概率，

其中，所述第一图像表征型变前状态，第二图像表征型变后状态。

8.一种图像型变网络生成模型，用于对输入图像进行型变处理，以输出符合型变效果的图像，所述图像型变网络生成模型包括：

生成网络，采用编码器-解码器结构，适于通过多层卷积、下采样、上采样处理后计算出输入图像的型变参数；以及

双线性插值层，适于根据所述输入图像和型变参数插值出符合型变效果的图像。

9.一种计算设备，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-6所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-6所述的方法中的任一方法。