CN109447137B

CN109447137B - 一种基于分解因子的图像局部风格迁移方法

Info

Publication number: CN109447137B
Application number: CN201811198144.7A
Authority: CN
Inventors: 郑军; 刘新旺
Original assignee: Matrixtime Robotics Shanghai Co ltd
Current assignee: Matrixtime Robotics Shanghai Co ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2022-06-14
Anticipated expiration: 2038-10-15
Also published as: CN109447137A

Abstract

本发明涉及一种基于分解因子的图像局部风格迁移方法，该方法包括以下步骤：1)获取迁移任务；2)初始化风格迁移网络并利用带标签的数据样本进行训练；3)基于训练后的所述风格迁移网络对所述迁移任务进行处理，获得合成图像；所述风格迁移网络包括两个自动编码器和四个标签分类器，每个自动编码器包括一个编码器和两个解码器，所述标签分类器设置于编码器和解码器之间，所述编码器实现指定因子和公共因子的分解。与现有技术相比，本发明能够较好地解耦因子，具有重构效果显著等优点。

Description

一种基于分解因子的图像局部风格迁移方法

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种基于分解因子的图像局部风格迁移方法。

背景技术

风格迁移属于视觉和图形问题的范畴，其目的是学习输入分布和输出分布之间的映射。随着深度学习的发展，深度神经网络成为最常用的映射学习方法，并取得了最先进的性能。

传统上，映射是由一组具有相应关系的像素到像素对齐的图像对来训练的。例如，一些研究者专注于学习这个任务的逐像素映射，特别是生成对抗网络(GAN)和自动编码器，由于其强大的图像生成能力而被广泛应用于图像翻译。例如，pix2pix算法基于条件GAN生成真实图像，而文献“Back projection:An effective post processing method forgan-based face sketch synthesis”(Nannan Wang,Wenjin Zha,Jie Li,and XinboGao.Pattern Recognition Letters,107:59-65,2018)将人脸照片映射为GAN的素描，并结合反投影法来降低噪声。研究人员还提出了一种不配对的图像翻译算法，因为配对图像在很多应用中都是不可用的。一些研究试图让输入和输出共享某些内容特征。基于pix2pix框架，文献“Unpaired image-to–image translation using cycle-consistentadversarial networks”(Jun Yan Zhu,Taesung Park,Phillip Isola,and Alexei AEfros.In IEEE International Conference on Computer Vision,pages 2242-2251,2017)提出循环映射网络，可以将输入X映射到输出Y再映射到X，从而在X和X之间构建映射。

除了在两个不同的领域之间进行风格迁移外，一些研究还关注于在一个数据集中分解因子和迁移样式。自动编码器和VAE是该领域的常用方法。在VAE半监督下研究的引文可以将标签信息从隐藏代码中分离出来。文献“Disentangling factors of variation indeep representation using adversarial training”(Michael F Mathieu,Junbo JakeZhao,Aditya Ramesh,Pablo Sprechmann,and Yann LeCun.In Advances in NeuralInformation Processing Systerms 29,pages 5040-5048,2017)提出了一种结构来分解隐藏的因子。这些方法在同一数据集(一个域)的两幅图像之间的差异学习中取得了显著的效果。然而，当数据集比较复杂或来自不同领域时，性能会更差。对内容与风格的解构也有研究，例如文献“Recognition of chinese artists via windowed and entropybalanced fusion in classification of their authored ink and wash paintings(iwps)”(Jiachuan Sheng and Jianmin Jiang.Pattern Prcognition,47(2):612-622,2014)提出了基于直方图的局部特征和全局特征提取，以表征中国水墨画艺术风格的不同方面。文献“Pose transforming network:Learning to disentangle human posture invariational auto-encoded latent space”(Jongin Lim,Youngjoon Yoo,Byeongho Heo,and Young Choi Jin.Pattern Recognition Letters,112:91-97,2018)使用VAE从单一图像中分离人类姿势。

然而，这些风格迁移任务主要是将整个图像的分布映射为相应的分布，或者在一个域中进行因子的翻译，而没有研究将指定对象在不同的域中进行翻译同时保持其余部分不变。这个案例有很多应用场景。例如，有几个人站在不同的场景的照片，我们想在一张照片中把一个人变成另一个人。换句话说，我们只想改变人物，保持场景不变，这和photoshop的剪切功能类似。在某些情况下，我们希望将一部分图像与新风格相结合，例如将书写风格分离出来，与新人物相结合，以新风格重构内容。前景和背景的分割问题也属于SIT的问题。这个问题在迁移学习中也很常见，其重点是将从域S中学习到的知识应用到域T中。S和T具有可转移的公共因子(例如，类)，同时它们也具有领域相关因子(例如，背景和样式)。因此，如何提取共性和领域相关因子是知识转移的一个重要研究课题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于分解因子的图像局部风格迁移方法。

本发明的目的可以通过以下技术方案来实现：

一种基于分解因子的图像局部风格迁移方法，该方法包括以下步骤：

1)获取迁移任务；

2)初始化风格迁移网络并利用带标签的数据样本进行训练；

3)基于训练后的所述风格迁移网络对所述迁移任务进行处理，获得合成图像；

所述风格迁移网络包括两个自动编码器和四个标签分类器，每个自动编码器包括一个编码器和两个解码器，所述标签分类器设置于编码器和解码器之间，所述编码器实现指定因子和公共因子的分解。

进一步地，所述风格迁移网络进行训练的目标函数考虑四个解码器的重构损失和标签分类器的分类损失。

进一步地，所述解码器的重构损失以均方损失函数表示。

进一步地，所述标签分类器的分类损失以对数损失函数表示。

进一步地，所述风格迁移网络训练时，先更新自动编码器的参数，再更新标签分类器的参数。

进一步地，所述四个标签分类器中，处理公共因子的标签分类器后设置有梯度反转层。

进一步地，四个解码器中，其中两个用于组合新图像，另外两个用于根据所述迁移任务实现指定的风格迁移。

与现有技术相比，本发明具有以下有益效果：

本发明设计了风格迁移网络，首先提取指定的和其他因子，这些因子都是由标签来表示的，然后将这两种来自不同领域的因子进行整合，并使用重构网络将它们转换成目标图像，能够有效地完成指定的风格迁移。

附图说明

图1为一种风格迁移任务示意图；

图2为本发明风格迁移网络的结构示意图；

图3为MNIST中不同内容和风格的组合结果示意图；

图4为Fashion中不同内容和风格的组合结果示意图；

图5为Fashion-r作为特征d时的不同内容和风格的组合结果示意图；

图6为Fashion-r作为特征c时的组合结果示意图；

图7为MNIST和MNIST-M的组合结果示意图；

图8为MNIST-M和MNIST的组合结果示意图；

图9为MNIST和SVHN的组合结果示意图；

图10为SVHN和MNIST的组合结果示意图；

图11为本发明与pix2pix方法的比较示意图；

图12为本发明方法的收敛速度和精度示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一、相关技术

1)自动编码器

自动编码器是一种有效的无监督学习编码方法，作为一种基本模型，它被广泛应用于图像翻译任务中。它的目的是学习输入数据的表示，这通常应用于降维。自动编码器包括输入层、输出层和一个或多个隐藏层，训练目标是重建其输入，可以定义为一个映射Φ：x→ω和ψ：ω→x，使得

其中Φ、ψ、ω和x∈X分别代表编码器，解码器，编码和输入数据样本。

2)生成对抗网络

生成对抗性网络(GANs)在生成逼真图像方面取得了巨大的成功。GANs由生成器Gen和判别器Disc两部分组成。根据最大最小博弈理论对损失目标进行了优化。训练过程包括两个步骤：判别器接受输入的信息，然后训练它们从真实图像数据集中采样到生成的合成图像进行区分；生成器被训练用来生成与真实图像混合的图像。训练过程的目的是生成高度逼真的图像，使判别器不能从真实图像中辨别合成图像。

3)传统的风格迁移任务

域间风格迁移是最常见的任务，重点是将整个图像的分布转换为相应的分布。例如，Cycle-GAN映射输入X到输出Y再到X，因此在X和X之间构建映射。

域内风格迁移任务试图在一个域中转移不同图像的因子。例如，“Disentanglingfactors of variation in deep representation using adversarial training”将MNIST数据集中的上下文和样式进行了传输，这样就可以得到一个具有新样式的数字。这种算法适用于简单的数据集，因为它通过比较匹配的图像来提取因子。

二、本发明方法

本发明提供一种基于分解因子的图像局部风格迁移方法，该方法包括以下步骤：

1)获取迁移任务；

2)初始化风格迁移网络并利用带标签的数据样本进行训练；

SIT任务的定义如下：给定源域样本S₁、S₂、…、S_m，其中包含希望迁移的指定因子S_c1、S_c2、…、S_cm，和不希望迁移的因子S_d1、S_d2、…、S_dm。目标域样本T₁、T₂、…、T_m，它们由希望转移的指定的因子T_c1、T_c2、…、T_cm，和希望不变的因子T_d1、T_d2、…、T_dm。首先根据指定的因子收集图像在这两个领域的数据集到配对图像，这就意味着指定的因子S_c1＝T_c1、S_c2＝T_c2、…、S_cm＝T_cm，而S_d1≠T_d1、S_d2≠T_d2、…、S_dm≠T_dm。

在对这些成对数据进行训练之后，给定两个图像S_i和T_j，任务是重建一个由S_c1和T_d1组成的组合样本R_k。本发明使用标签来指定希望转移的特定因子(区域)，而其他信息作为未指定的希望保持不变的因子(区域)。

本发明通过两个步骤实现这一任务。首先对带标记样本的结构进行训练，得到潜在因子，然后结合提取因子重构目标输出。

如图2所示为本发明方法对应的网络结构示意图。其中，G、D、C分别表示编码器、解码器和类判别器。L_S、L_T、L_RS、L_RT分别是S和T中四个解码器的重构损失。为了提高性能，本发明方法可以添加GAN和感知损耗等许多损失函数，也可为了简化结构，只使用均方误差作为损失函数。L_C是分类损失，这里采用分类交叉熵作为L_C的损失函数。

因子(区域)用标签标注。S(c_i,d_i)和T(c_i,d_i)代表指定因子S_ci＝T_ci(例如，内容)和不同因子S_di≠T_di(例如，背景)的成对数据，因此组合的图像R_T＝T，R_S＝S。

1)分解因子

每个图像可分为几个组件，如背景、颜色、风格和手势。在迁移学习任务中，通常一个图像可以被编码成两部分：类别相关因子和领域相关因子，前一个代表指定的一部分，而后者代表未指定的部分。为了提取这两个因子，这里添加了四个判别器来对这两个方面的图像进行编码，并提高了提取特征的纯度。该结构如图2所示。它包括两个自动编码器和四个标签分类器，S(c_i,d_j)和T(c_i,d_j)是具有相同标签的图片c_i，S₁和T₁是重建的图像，而S₂和T₂是结合的图像。

本发明提出了一个架构来分解指定和公共的因子。在未指定的因子提取器中，在分类器之后添加了两个梯度反转层，这可以激励特征d根据给定的标签包含较少指定的信息。同时，对分类分支进行训练，以增强c的功能，以包含更多指定的信息。例如，如果希望提取类别相关信息，那么指定的部分就是类标签，如果希望提取对象的手势，那么指定的部分就是手势标签。该结构的损失函数可以写成公式(2)。

损失主要由两个部分组成：以L_S、L_T、L_RS和L_RT标记的重建图像的损失，以L_C标记的分类器的损失。

2)局部风格迁移

基于图2的结构，本发明可以提取S和T中的公共特征c和域相关特征(指定特征)d，并获得两个解码器来组合新图像。然后，通过将c和d从不同的域中分离出来，再输入到解码器

或

来实现指定的风格迁移。

关于图像翻译的研究有很多。这些研究主要可以分为两种。第一个问题涉及一个领域(数据集)中的转换因子。这一研究主要关注MNIST、NORB等简单数据集的分解因子，在处理复杂数据集时性能较差。第二个问题着重于两个域之间的图像分布的转换，即将整个输入图像分布转换为相应的分布。例如，Cycle-GAN将梵高的整幅油画翻译成了一张照片。这一研究只能迁移整个图片到对应分布。除了这些研究外，没有任何工作试图只将一幅图像的感兴趣部分映射为相应的分布，而不改变其他因子。这种情况在迁移学习中也没有得到解决，之前的工作只关注于提取类相关因子而忽略其他因子。

考虑到这些，以如图1所示的SIT任务为例，这里S来自具有复杂背景的真实世界图像，而T来自具有白色背景的原型。通过配对数据的训练，该模型可以分离类别和背景。最后，在模型中输入鼠标原型和放置在桌子上的杯子时，可以得到放置在桌子上的鼠标和杯子原型。以往的工作可以看作是SIT的两个特例。如果感兴趣的因子是整个图像，SIT将成为原始风格迁移问题，而如果源域和目标域分布相同，SIT将成为第一个问题。

本发明的优化目标如公式(2)所示。为了训练网络，本发明采用两步来更新参数，如公式(3)所示，其中μ和λ表示学习速率，这里可以只设置μ＝1和λ＝1。公式表示先更新两个自动编码器和两个解码器，然后更新四个分类器。

表1结构详细信息

根据结构如图2培训过程主要分为：训练自动编码器s和训练分类器，前一个采用均方损失，

而后者应用对数损失函数。在解码器的输出中可以使用许多其他的高级技巧，如对抗性网络和感知损耗，以提高生成图像的质量，在这里简化结构，只使用均方损耗。网络的详细信息如表1所示，采用的图像的大小是28×28。对实验进行了Keras，学习率设置为0.0002。采用Nvidia GTX 1080TiGPU实现此任务。训练过程的伪代码如下所示：

输入：S，T，S_label，T_label

输出：S_c，S_d，T_c，T_d，解码器D_S和D_T

三、实验比较

本实施例在几个流行的数据集上测试本发明方法：MNIST，Fashion，MNIST-M和SVHN。对于每个任务，本实施例在100迭代中对网络进行60000张图像的训练。在获得模型后，本实施例从两个方面评估了该方法的性能。为了显示翻译性能，本实施例将对翻译后的图像进行可视化显示；为了证明本发明方法在分解因子方面的有效性，本实施例揭示了分解因子在训练数据集聚类和测试数据集分类中的性能，以及该方法的收敛速度。

之前的工作可以看作是SIT的两个特殊案例，所以本实施例首先在一个数据集MNIST上测试图像翻译性能，在这个数据集上本实施例可以看到是如何学习手写风格的，同样的实验也在Fashion中进行。其次，本实施例揭示了图像在不同领域的翻译性能，从中本实施例可以看到是如何学习不同领域的指定因子和未指定因子的。最后，本实施例展示了整个图像翻译任务的性能，并与其他图像翻译方法进行了比较。在结果示意图3-图10中，顶行提供样式，而最左边的列提供上下文。

1)单个域内的局部风格迁移

虽然本发明方法专注于在不同的领域中分解类别和领域相关因子，但它也适用于在一个数据集中分解因子。在MNIST中，类是标签指示的指定因子，而笔迹风格是不同的因子。本实施例尝试将不同图像的样式转换成每个数字。本实施例使用60000张图片来训练网络，然后选择10图片来展示翻译效果。结果如图3所示。DFV是一种经过配对数据训练的分解方法，利用对抗性损失来改善生成图像的细节。它只能处理简单的数据集，MNIST的结果也如图3所示。从图中可以看出，特征提取器可以很好地捕捉到笔迹。图3中，在每一个图像，第一行和最左边的一列数字来自于测试数据集，c来自顶部一行，d来自左边一列，这意味着每一列是相同的数字。结果表明，本发明可以很好地学习一个数据集中的上下文和样式。而DFV只适用于一个领域。

Fashion包含了10种服装的60000个灰色图像。由于这些图片是标准的正面照片，没有任何风格的变化，所有的信息都包含在类相关因子中，未指定的因子为空，这导致它们在每一行都是一样的，如图4所示。

2)两个域的局部风格迁移

在Fashion中随机旋转图像-30°～30°来生成一个名为Fashion-r的新数据集。本实施例100中epoch中培训了60000个样本，结果如图5和图6所示。从这两张图片中，本实施例可以看到本实施例的模型可以很好的学习旋转角度。

之前的工作是从BSDS500中随机抽取的原始块集合中混合的数字，获得MNIST-M。虽然在MNIST-M中，人类很容易识别数字，但深度神经网络的性能将受到显著影响，因为DNNs严重依赖于训练数据集。在这两个数据集之间，同一个因子是类相关信息，更具体地说，是类标签，而领域相关因子主要是背景。本实施例在图中展示了本实施例指定的风格迁移结果，如图7和8所示，其中本实施例可以观察到数据集的背景可以被本发明方法捕获。

MNIST包含黑色背景的手写数字图像，而SVHN包含复杂背景的打印数字，这增加了这项任务的难度。相同的因子是类标签，与领域相关的因子是背景和文本样式。结果如图9和10所示。虽然这两个数据集有很大的不同，但本发明方法的性能也很好。

3)域间风格迁移

为了展示效果，本实施例使用了以下任务，并与基于自动编码器和对抗性学习的pix2pix方法进行了比较。

这个任务是基于架构标签生成建筑照片。本实施例测试了本发明方法，如图11所示。从图中可以看出，该方法在该任务中取得了较好的性能。

4)定量分析

本实施例通过测试聚类和分类精度性能来评估类相关因子和领域相关因子的影响。本实施例使用k-means对分解的因子进行聚类，如表2和3所示。在这种情况下，所有类相关因子都获得了最优的性能，而领域相关因子几乎与随机猜测的结果相同，说明了本发明方法的有效性。对于MNIST来说，特征d的聚类结果要比随机猜测稍高一些，因为这个数据集太简单了，类相关因子很容易在特征d中被解码。

表2在训练集60000张图片上的聚类精度和NMI

表3在训练集10000张图片上的分类精度

5)收敛速度

本发明方法的收敛速度和在迭代过程中的精度如图12所示。可以看出，对于每个任务，本发明方法在10个迭代内收敛到最佳状态，证明了其鲁棒性。

本发明提出了局部风格迁移，即在标签标注的基础上，将指定的因子映射为相应领域的风格，而其余的因子保持不变。本发明通过设计一个对称的结构，分解指定和公共的因子，然后通过解码器重构组合图像。通过本发明的几个基准进行评价，聚类和分类结果表明，本发明能够较好地解耦因子，重构效果显著。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于分解因子的图像局部风格迁移方法，其特征在于，该方法包括以下步骤：

1）获取迁移任务；

2）初始化风格迁移网络并利用带标签的数据样本进行训练；

3）基于训练后的所述风格迁移网络对所述迁移任务进行处理，获得合成图像；

所述风格迁移网络包括两个自动编码器和四个标签分类器，每个自动编码器包括一个编码器和两个解码器，所述标签分类器设置于编码器和解码器之间，所述编码器实现指定因子和公共因子的分解，所述指定因子指希望迁移的因子，所述公共因子指不希望迁移的因子。

2.根据权利要求1所述的基于分解因子的图像局部风格迁移方法，其特征在于，所述风格迁移网络进行训练的目标函数考虑四个解码器的重构损失和标签分类器的分类损失。

3.根据权利要求2所述的基于分解因子的图像局部风格迁移方法，其特征在于，所述解码器的重构损失以均方损失函数表示。

4.根据权利要求2所述的基于分解因子的图像局部风格迁移方法，其特征在于，所述标签分类器的分类损失以对数损失函数表示。

5.根据权利要求1所述的基于分解因子的图像局部风格迁移方法，其特征在于，所述风格迁移网络训练时，先更新自动编码器的参数，再更新标签分类器的参数。

6.根据权利要求1所述的基于分解因子的图像局部风格迁移方法，其特征在于，所述四个标签分类器中，处理公共因子的标签分类器后设置有梯度反转层。

7.根据权利要求1所述的基于分解因子的图像局部风格迁移方法，其特征在于，四个解码器中，其中两个用于组合新图像，另外两个用于根据所述迁移任务实现指定的风格迁移。