CN112581550A

CN112581550A - 一种基于生成对抗网络的非匹配图像风格转换方法

Info

Publication number: CN112581550A
Application number: CN202011391478.3A
Authority: CN
Inventors: 周乾伟; 刘一波; 胡海根; 李小薪; 周晨; 陶俊; 吴延壮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-30

Abstract

一种基于生成对抗网络的非匹配图像风格转换方法，包括以下步骤：1)同时输入属于A风格图像x_a以及属于B风格图像x_b进入风格转换神经网络中；2)根据源域图像，网络生成器生成对应的目标域风格图像；3)将源域与生成的目标域图像经过分割网络，通过形状一致性损失进行约束；4)将源域与生成的目标域图像经过感知网络，通过感知损失进行一致性约束；5)判别器对生成器生成的图像进行质量评判；6)按步骤1)～5)重复设定次数，直到网络收敛。本发明旨在没有互相匹配的图像数据情况下，利用深度学习技术，实现将图像的风格进行有效的转换。通过精心设计的网络结构，能够有效地提高转换图像的质量且适应于更广阔的应用场景范围。

Description

一种基于生成对抗网络的非匹配图像风格转换方法

技术领域

本发明属于深度学习中的生成对抗网络领域，并引入了注意力机制，是一种实现了非匹配图像风格转换的方法。

背景技术

近年来，深度学习技术越来越受到研究者的重视，并已成功地应用于许多实际应用中。深度学习算法试图从海量数据中学习高级特征，这使得深度学习超越了传统的机器学习。它可以通过无监督或半监督的特征学习算法和分层特征提取来自动提取数据特征。相比之下，传统的机器学习方法需要手工设计功能，这严重增加了用户的负担。可以说，深度学习是机器学习中基于大规模数据的表示学习算法。

而在生成对抗网络(GAN)的应用方面，近年来也是深度学习领域中一个热门的研究课题。2014年至今，人们对GAN进行了广泛的研究，并提出了大量算法，GAN在结构上包含了生成器、判别器，通过两者的相互博弈，共同提高性能。GAN在图像处理与计算机视觉、自然语言处理、语音与音频、医学以及数据科学中都有着广泛的应用。

图像风格转换是近些年新兴起的一种基于深度学习的技术，它也伴随着深度学习发展的而发展迅速。图像风格转换属于纹理转换问题，纹理转换问题在经典方法中采用了一些非参数的方法，例如利用一些固定的方法来进行渲染。而传统方法只能做到对底层特征的提取，而卷积神经网络能够对图像特征的高层特征的提取，使得图像内容与风格分离提供了可行性。

近几年，注意力机制不管在自然语言处理还是在计算机视觉领域中，都是热门的研究方向。许多学者也提出了若干种注意力机制来提高模型的相关任务的性能。计算机视觉中的注意力机制的基本思想是想让模型学会注意力，即能够忽略无关信息而关注重点信息。

从目前相关领域的研究现状来说，目前的风格转换算法主要分为两大类，一种是基于匹配数据的风格转换算法，另一种是基于非匹配数据的风格转换算法。具体来说，数据的匹配指的是从内容角度来看，两张图像具有一致的内容属性，但是从风格角度来看，两者属于不同的风格域。例如，同样一个地点对应的夏天与冬天的风景两张图像，然后将这两张图像在训练时成对进行输入。反之，数据的非匹配指的是无需要求数据严格进行匹配之后欧成对输入网络，输入的图像只要是来自两个不同的域即可。根据目前的研究结果，基于匹配数据集的算法实验效果更优，但是匹配的数据集稀少，获取难度大也是不可忽视的问题，这也导致基于匹配数据集的风格转换算法应用的范围较小，这也促使基于非匹配数据的风格转换算法成为了众多研究者进行研究的侧重点。目前的非匹配数据算法存在着图像细节不够清晰，边缘形状发生改变以及训练较为困难等问题。而本发明利用编解码器，对图像进行拆分重组操作，对拆分的内容编码进行保留，并引入注意力机制使得网络关注于重要区域的细节信息，能够解决上述存在的相关难题。

发明内容

为了克服现有技术的不足，本发明提供一种基于生成对抗网络的非匹配图像风格转换方法，在没有互相匹配的图像数据情况下，利用深度学习技术，实现将图像的风格进行有效的转换。通过精心设计的网络结构，能够有效地提高转换图像的质量且适应于更广阔的应用场景范围。

本发明解决其技术问题所采用的技术方案是：

一种基于生成对抗网络的非匹配图像风格转换方法，所述方法包括以下步骤：

1)同时输入属于A风格图像x_a以及属于B风格图像x_b进入风格转换神经网络中，风格转换神经网络为包含了生成器与判别器的生成对抗网络；

2)根据源域的图像，风格转换神经网络生成目标域的图像，将A 风格图像x_a作为源域，则转换生成目标域B风格图像x_a2b，将B风格图像x_b作为源域，转换生成目标域A风格图像x_b2a；

3)将源域的图像与转换生成的目标域的图像经过分割网络，在本发明中将其命名为ShapeNet，使用形状的一致性损失对生成图像进行约束，保证源域的图像与生成转换的目标域图像具有相同的边缘形状；

4)将源域的图像与转换生成的目标域图像经过感知网络，在本发明中将其命名为PerceptionNet，使用感知损失对生成图像进行约束，保证源域的图像与生成转换的目标域图像具有高层信息的一致性；

5)判别器对生成器生成的图像进行质量评判，区分输入判别器的图像是真实图像或网络生成的假图像。

6)将步骤1)～5)不断重复设定的次数，生成器与判别器不断相互博弈，共同提高性能，直到网络收敛。此时，生成器生成的图像质量足够高，判别器无法区分生成器生成的图像是否为网络生成器来生成的虚假图像。

进一步，所述风格转换神经网络通过使用对应于不同风格的独立编解码器结构，充分学习了如何将图像编码成内容编码以及风格编码；风格转换神经网络包括两组生成器与判别器，分别针对源域图像与目标域图像进行图像的生成与判别。

针对每一组的生成器，其中包含了编码器与解码器的结构，编码器对图像进行编码操作，其中包含了两个编码器结构：内容编码器，对图像的内容特征进行编码，生成内容编码；风格编码器，对图像的风格特征进行编码，生成风格编码；解码器对编码器完成的编码进行解码，将内容编码与风格编码融合，合成对应的目标域风格图像。编码器通过学习特定风格的分布特点，因此成对匹配的数据不是训练必备，减小了数据收集的难度。

更进一步，引入了一种注意力机制，将卷积网络提取的特征进行可视化后形成热力图，根据热力图，教会了神经网络能够关注于重要的区域。

在生成器以及判别器中都引入了注意力机制，设某一层神经网络提取到的特征图的通道数为n，对应n张特征图，引入的注意力机制为：对每个通道的特征图计算其表示重要性的权重，且所有的权重和为1 将每个通道对应的权重与特征图进行加权求和形成热力图，得到卷积网络的特征可视化结果。注意力机制使网络能够教会神经网络关注于重要的区域，提升细节信息与整体的成像质量。

更进一步，引入了一个训练过的分割网络，保证了边缘形状的一致性。

使用的分割网络结构为特征金字塔(Feature Pyramid Networks)，使用具有真实标签的分割数据集进行训练，经过测试能够很好的对图像的边缘信息进行分割。

引入了感知网络与感知损失，保证了高层信息的一致性。

感知网络可选用预训练的VGG或ResNet，利用预训练网络提取图像的特征。

感知损失最小化源域图像以及转换后的目标域图像在特征层面的差异，在GAN中完成风格转换任务时，由于回传导数时，回传的分布具有普适性，具有训练速度快，收敛效果好，且具有一致的高频细节信息等优点。

本发明的有益效果表现在：通过本发明，只需一种风格图像即可获得多风格的对应图像。有利于构建医学诊断辅助系统，通过多风格图像辅助医生做出更为精确的临川判断。同时在医学图像数据稀缺的前提下，本发明也可作为一种数据的扩充，可提供给相关研究领域的研究者更多的数据进行算法研究，推动行业的整体发展。

附图说明

图1为一种基于生成对抗网络的非匹配图像风格转换方法的主要结构示意图。

图2为一种基于生成对抗网络的非匹配图像风格转换方法中风格转换神经网络中生成器的结构示意图。

图3为一种基于生成对抗网络的非匹配图像风格转换方法中风格转换神经网络中判别器的结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于生成对抗网络的非匹配图像风格转换方法，将需要互相转换的两种风格图像命名为x_a与x_b，以下详细描述由源域A风格的图像x_a转换到目标域B风格的图像x_a2b过程，由源域B 风格的图像x_b转换到目标域A风格的图像x_b2a的过程同理类似。x_a经过一个以GAN为基础架构的风格转换神经网络后，生成一张图像，该图像具有图像x_a的内容，以及图像x_b的风格，将其命名为x_a2b。

进一步，由于在一些特定的图像风格转换任务中，例如将马转换为斑马，磁共振影像的模态转换等，要求源域图像与目标域图像边缘结构是一致的，因此引入ShapeNet，是一个以特征金字塔(Feature Pyramid Networks)为架构，经过训练的分割网络。将源域的图像x_a与生成的目标域图像x_a2b输入ShapeNet，获得两者的分割结果，通过损失函数对两者的分割结果进行约束，保证源域图像x_a与生成的目标域图像x_a2b具有相同的结构边缘形状。

更进一步，可将卷积神经网络提取出来的特征，作为目标函数的一部分，通过比较源域图像经过卷积神经网络的特征值与目标域图像经过卷积神经网络的特征值，使得源域图像与目标域图像在语义上更加相似。因此引入PerceptionNet，将源域图像x_a与生成的目标域图像 x_a2b输入到一个预训练的PerceptionNet之中，该网络可以是VGG或 ResNet等特征提取网络。在潜空间中，可以将一张图像拆分成图像内容加图像风格两种组成部分的基础上，利用感知损失对提取的特征进行相应约束，公式中，j为图像对应的像素点位置，

为特征提取网络的非线性函数表示，H、W别分为图像的高与宽。通过感知网络，使得源域图像x_a与生成的目标域图像x_a2b应该具有相近的图像语义内容，提升图像生成的质量。

参照图2，风格转换神经网络包括生成器与判别器两部分结构，图2为生成器的架构设计。生成器中包含编码器与解码器，编码器负责将图像信息分解为内容编码与风格编码，分别由不同设计的内容编码器与风格编码器完成上述编码操作。解码器负责将上述编码器得到的内容编码与风格编码进行融合，合成相对应的目标域风格图像。具体来说，用a.encoder表示对A风格图像进行编码操作的编码器， a.decoder表示对A风格图像进行解码操作的解码器。b.encoder表示对 B风格图像进行编码操作的编码器，b.decoder表示对B风格图像进行解码操作的解码器。

输入网络的有A风格图像x_a与B风格图像x_b，x_a经过编码器，分解为风格编码s_a与内容编码c_a两部分，分别代表了A风格图像x_a对应的风格编码与内容编码。将风格编码s_a与内容编码c_a作为输入，输入到解码器中，解码器将s_a与c_a进行融合，生成与x_a对应的重构图像x_{a_recon}，通过L1损失函数进行约束，保证重构得到的图像与输入一致。

进一步，L1损失也被成为最小化绝对误差(Least Absolute Error)。

同理，x_b经过编码器，分解成了风格编码s_b与内容编码c_b两部分，分别代表了B风格图像x_b对应的风格编码与内容编码，并且进行重构得到了重构图像x_{b_recon}。

通过以上的学习训练，两组编解码器分别学会了将A风格图像x 与B风格图像x_b进行拆解与合成的操作。

接下来，将x_a对应的内容编码c_a与x_b对应的风格风格编码s_b进行组合，输入对应B风格的解码器b.decoder，生成由x_a转换的具有哦B 风格图像x_ab。由于x_ab此时为A风格图像x_a的内容加上B风格图像x_b的风格风格，所以将x_ab再次进行编码操作，可生成c_{a_recon}与s_{b_recon}。

更进一步，将c_{a_recon}与源域图像x_a拆分出来的c_a通过损失函数进行约束，使得c_{a_recon}与c_a保持一致。将s_{b_recon}与真实图像x_b拆分出来的s_b进行损失函数的约束，使得s_{b_recon}与s_b基本一致。这里损失函数可选用L1损失或L2损失。

最后，将c_{a_recon}与s_a输入对应A风格的解码器a.decoder进行解码，完成x_a—>x_ab—>x_aba的环形转换过程，将x_a与x_aba通过环形一致性损失函数进行约束，使得x_aba与x_a保持一致。这里损失函数可选用L1损失或L2损失。

参照图3，改图表示的是判别器的架构设计。将A风格图像x_a与 B风格图像x_b分别进行拆解，分别表示为c_a、c_b、s_a与s_b。再将c_a与s_b进行组合解码，生成图像x_ab，c_b与s_a进行组合解码，生成图像x_ba。判别器对x_ab与x_ba进行判断，判断其是否为生成器生成的假图像，并根据判别结果进行打分。当判别器认为输入的图像是生成器所生成的假图时，评分数值给出值为0，反之为1。

将上述步骤循环若干的设定次数后，生成器与判别器相互博弈，互相进步，最终的生成器具有强大的性能，根据一张其他风格的参考图像，即可生成十分逼真的属于该风格的转换图像。

以上通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点和功效。本发明还可以通过另外不同的具体实例方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互结合。

需要说明的是，以上实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目绘制，其实际实施时各组件的数量及比例可为一种随意的改变。

Claims

1.一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：所述方法包括以下步骤：

2)根据源域的图像，风格转换神经网络生成目标域的图像，将A风格图像x_a作为源域，则转换生成目标域B风格图像x_a2b，将B风格图像x_b作为源域，转换生成目标域A风格图像x_b2a；

6)将步骤1)～5)不断重复设定的次数，生成器与判别器不断相互博弈，共同提高性能，直到网络收敛。

2.如权利要求1所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：所述风格转换神经网络通过使用对应于不同风格的独立编解码器结构，充分学习了如何将图像编码成内容编码以及风格编码；风格转换神经网络包括两组生成器与判别器，分别针对源域图像与目标域图像进行图像的生成与判别。

3.如权利要求1或2所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：针对每一组的生成器，其中包含了编码器与解码器的结构，编码器对图像进行编码操作，其中包含了两个编码器结构：内容编码器，对图像的内容特征进行编码，生成内容编码；风格编码器，对图像的风格特征进行编码，生成风格编码；解码器对编码器完成的编码进行解码，将内容编码与风格编码融合，合成对应的目标域风格图像。

4.如权利要求2所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：引入了一种注意力机制，将卷积网络提取的特征进行可视化后形成热力图，根据热力图，教会了神经网络能够关注于重要的区域。

5.如权利要求4所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：在生成器以及判别器中都引入了注意力机制，设某一层神经网络提取到的特征图的通道数为n，对应n张特征图，引入的注意力机制为：对每个通道的特征图计算其表示重要性的权重，且所有的权重和为1将每个通道对应的权重与特征图进行加权求和形成热力图，得到卷积网络的特征可视化结果。

6.如权利要求1或2所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：引入了一个训练过的分割网络，保证了边缘形状的一致性。

7.如权利要求6所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：使用的分割网络结构为特征金字塔，使用具有真实标签的分割数据集进行训练，经过测试能够很好的对图像的边缘信息进行分割。

8.如权利要求1或2所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：引入了感知网络与感知损失，保证了高层信息的一致性。

9.如权利要求8所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：感知网络可选用预训练的VGG或ResNet，利用预训练网络提取图像的特征。

10.如权利要求8所述的一种基于生成对抗网络的非匹配图像风格转换方法，其特征在于：感知损失最小化源域图像以及转换后的目标域图像在特征层面的差异。