CN110992252A

CN110992252A - 一种基于潜变量特征生成的图像多风格转化方法

Info

Publication number: CN110992252A
Application number: CN201911204107.7A
Authority: CN
Inventors: 张冀聪; 胡静斐; 王�华; 武广
Original assignee: Hefei Innovation Research Institute of Beihang University
Current assignee: Hefei Innovation Research Institute of Beihang University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-10
Anticipated expiration: 2039-11-29
Also published as: CN110992252B

Abstract

本发明的一种基于潜变量特征生成的图像多风格转化方法，可解决现有的图像转换方法在风格表示和图像质量上都不能满足需求的技术问题。包括以下步骤：S100、采集图像数据；S200、对图像进行预处理；S300、构建图像转化模型并优化；S400、基于步骤S300的图像转化模型，以步骤S200的图像数据作为输入，对图像进行转化处理；S500、对转换得到的图像质量进行评估。本发明在MUNIT的基础上对模型进行了扩充和改进，通过设计跳跃连接对图像的风格转换提供了充分的内容特征信息的传递；风格编码生成器对图像风格编码的潜在变量进行学习，可以实现丰富的图像风格转换；同时模型可以根据输入的风格图像为参考实现特定风格的转换，对于特定风格转换任务的开展具有重大指导意义。

Description

一种基于潜变量特征生成的图像多风格转化方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于潜变量特征生成的图像多风格转化方法。

背景技术

由于深度学习的进步，计算机视觉下迁移学习得以快速发展，包括图像修复、角色变换、超分辨率、属性变换、图像分割、场景变换以及风格变换等。越来越多的研究开始致力于图像翻译任务，但是大部分都是在有监督学习下开展的，这中间需要大量的配对数据作为训练的支撑。而具有挑战性的无监督图像翻译研究得到了更多的关注，本文的研究便是基于未配对的多图像域之间实现相互转换。

图像间的翻译建立在图像域之间的联系上。因图像间联系的多变性，如图像所处的空间、时间和环境的变化，可以说图像间的联系往往是一对多，甚至是多对多的关系。目前的很多研究都是实现单峰映射，由一种图像域向另一种单风格域图像转换，这种单域转换可以应用在诸如图像分割任务下，然而在图像的多风格跨域转换下并不奏效。

生成对抗网络(GAN)的提出加速了深度学习下图像处理任务的进步。在图像的生成任务上，生成器和判别器通过最大最小化目标函数的博弈实现双方的共同进步。生成器为了生成欺骗判别的样本不断提高，判别器为了判断出样本的真假也在不断的优化自身能力。理想状态下双方可以达到纳什平衡。然而训练GAN是不稳定的，在此基础上提出了很多改进的方案。这其中的主要原因在于生成对抗网络中判别器的能力过于强大。在我们的模型训练过程中，利用谱归一化去稳定训练，同时利用LSGAN的损失函数作为优化损失。

图像到图像的转换。自生成对抗网络诞生后图像到图像翻译的工作得到了快速发展，提出了利用cGAN实现图像到图像转换的统一框架，同时期的CycleGAN，DiscoGAN和DualGAN通过配对的图像，在循环一致损失下对图像进行跨域转换。在有监督条件下BicycleGAN结合了条件变分自编码GAN和条件潜在回归GAN来联合执行隐编码和双向输出之间的连接，并实现性能的改进。在无监督学习下，UNIT将源域和目标域的图像映射到一个共享的潜在空间，通过共享的潜在空间解码得到目标图像。DTN通过设计特征误差实现了模态域间的转换。最近FUNIT提出少样本无监督的图像到图像转换框架，通过对图像进行内容编码和类别编码实现图像的转换。

风格迁移。基于CNN下的图像风格迁移的研究有很多。风格迁移的目标是为了保证图像内容不变的情况下实现图像的风格变换。往往对图像进行内容编码和风格编码的分离，再通过风格编码的变换嵌入到内容编码下共同解码生成风格转换后的图像。基于GAN的图像风格迁移采用的方式类似，在优化转换得到的图像上引入对抗网络。其中MUNIT实现的是多风格图像的转换，通过分离图像的内容和风格，在AdaIN下实现风格的多样化。我们的模型建立在MUNIT的基础之上，设计风格编码生成器对图像的风格编码进行拟合，同时结合跳跃连接和Self-Attention，提高了图像的多风格转换的质量和多样性。

综上可知，图像多风格转换是图像翻译任务下较为困难的研究。图像间的联系不仅仅是单方向或者单因素的，这种联系需要从多角度去分析。图像多风格转换正是建立图像间多方面联系的纽带，图像的多风格是对图像的多方面解释，可以充分表达图像的内容和语义信息。数字媒体发展下海量的图像数据推动了这项工作的发展。主流思想是MUNIT虽然实现了无监督的转换，但是图像的风格表示以及图像质量都存在不足。

为了解决MUNIT存在的不足，本研究在MUNIT基础之上加入了风格编码、DSN嵌入和self-attention模块，更加关注图像的风格编码和图像的全局性以及细节信息。通过与现有技术在各类图像翻译任务下广泛实验的比较，本发明提出的模型在定性和定量上都展示了较好的优势。

发明内容

本发明提出的一种基于潜变量特征生成的图像多风格转化方法，可解决现有的图像转换方法在风格表示和图像质量上都不能满足需求的技术问题。

为实现上述目的，本发明采用了以下技术方案：

一种基于潜变量特征生成的图像多风格转化方法，包括：

包括以下步骤：

S100、采集图像数据；

S200、对图像进行预处理；

S300、构建图像转化模型并优化；

S400、基于步骤S300的图像转化模型，以步骤S200的图像数据作为输入，对图像进行转化处理；

S500、对转换得到的图像质量进行评估。

进一步的，所述S100、采集图像数据；具体包括：

通过相机将采集到的照片传输到移动处理端；

判定图片是否有严重损毁，若图片不达标，需重新采集。

进一步的，所述S200、对图像进行预处理；具体包括：

对每个图片进行了数据增强，两种随机因子操作：

1)在0.9-1.1之间随机缩放；

2)在0-360之间随机旋转。

进一步的，所述S300构建图像转化模型；

具体包括：

S301、构建模型训练数据集；

S302、确定转化模型为Latent DSN模型，通过对图像进行内容编码、风格编码的学习、风格编码的表示、跳跃连接和Self-Attention的网络设计实现转换任务。

进一步的，所述Latent DSN模型包括输入图像通过内容编码器对图像进行内容特征的提取，风格编码器对图像风格特征进行提取，通过Global pooling得到风格潜在变量，利用设计的风格生成器学习风格潜在变量，通过多层感知机和AdaIN Parameters对风格编码进行风格表示，结合内容编码特征在风格转换生成器下通过内容编码网络的跳跃连接完成风格图像的转换；判别器判断生成图像与真实图像的真假，将Self-Attention嵌入在判别器中。

进一步的，所述内容编码器和跳跃连接的具体步骤如下：

若实现由A域图像I_A和B域图像I_B的相互转换；其中A域图像转换到B域图像，A域图像提供内容信息，B域图像提供风格信息；

内容编码器的作用于A域图像I_A，内容编码器先对A域图像I_A在卷积层下进行下采样，在下采样每一个卷积层后保留编码的中间层，为了对A域图像I_A的内容信息进行充分的提取，在卷积层后接入残差模块，最终得到A域图像I_A的内容编码表示；

在转换生成器下进行跳跃连接时，根据需要将内容编码器不同尺度的特征矢量保留下来；

经过卷积层和残差模块对A域图像I_A进行内容特征提取，得到的内容编码潜在变量为Z_cA。

进一步的，所述风格编码的表示的具体步骤如下：

假设B域图像I_B提供转换中的风格信息，风格编码器对B域图像I_B进行风格特征的提取；

风格编码器由卷积层构成，包括下采样层，为了保留B域图像I_B的全局信息，在卷积层的最后一层加入了Global average pooling，并对整个feature map求平均值，在全连接层下得到风格编码潜在变量Z_sB；

还包括风格生成器，所述风格生成器由全连接层构成，将随机噪声Z作为输入，经过风格生成器学习得到风格潜在变量Z_sB，在判别器的最大最小博弈下优化风格生成器；

由于风格潜在变量Z_sB的维度比较低，生成对抗网络可较好的拟合图像的风格潜在变量Z_sB；在最终的模型测试阶段，给定具体的风格图像做参考得到的风格潜在变量，传递到风格图像生成器中，指导具体风格的图像任务的转换；

风格潜在变量Z_sB经过多层感知(MLP)得到图像风格参数γ和β，送入AdaptiveInstance Normalization(AdaIN)层从而控制图像的风格；

公式(1)中的γ，β是多层感知MLP的输出，Z_c是图像编码的潜在变量的表示，μ和σ是图像编码的潜在变量Z_c的均值和方差；

通过AdaIN层将内容编码Z_c和风格编码Z_s进行连接，实现了风格编码Z_s与内容编码Z_c的嵌入；

AdaIN的输出馈送到残差模块进行图像上采样，实现风格图像的生成；

在风格生成的设计上，将内容编码卷积层的第二和第三层与生成器的上采样对应部分进行连接，风格生成器将输出转换得到的多风格图像

进一步的，所述S300中构建图像转化模型并优化，其中优化步骤包括：

设置损失函数对内容编码器、风格编码器、风格编码生成器、风格编码判别器、风格图像生成器、风格图像判别器分别进行参数优化；

其中，

对于内容编码器的优化，利用重构误差进行优化；通过A域图像I_A内容编码潜在变量Z_cA和A域图像I_A风格编码潜在变量Z_sA得到重构的A域图像

将重构的A域图像

做内容编码得到潜在变量

对应的B域图像I_B得到重构内容编码潜在变量

利用L1损失进行内容编码模块的优化；

对于图像的重构误差，整体的过程如上述分析；

对于风格编码器的优化，采用对抗损失和转换风格编码损失；转换风格编码损失通过A域I_A经过风格转换得到B域风格图像

经过风格编码器得到风格编码潜在变量

B域图像I_B也可转换生成A域的风格图像

再得到风格编码潜在变量

则转换风格编码损失表示为：

风格生成器A记作G_sA和风格判别器A记作D_sA的对抗损失：

其中，p(z)是随机变量z的分布；

同理，得到风格生成器B的对抗损失；

因此，风格图像转换A到B的对抗损失为：

Z_cA是A域图像的内容编码潜在向量，Z_sA是B域图像的风格编码潜在向量，G_AB是A域到B域风格生成器，D_AB是A域到B域风格判别器；

同样的求的B域到A域转换的图像转换的对抗损失；

因此，整体的损失函数如下：

最终形成交替更新的损失函数：

其中λ₁＝1.0，λ₂＝0.1，λ₃＝10.0，λ₄＝1.0，λ₅＝1.0。

进一步的，所述S500对转换得到的图像质量进行评估；具体包括：

通过Inception Score(IS)和FID来衡量转换得到的图像质量效果；

Inception score(IS)基于类概率分布中的熵来评估图像，使用inceptionnetwork对生成的图像进行分类，IS越大说明转换得到的图像质量越高；

Fréchet Inception Distance(FID)首先将生成的图像嵌入到初始网络的所选层的潜在特征空间中；

其次，将生成的图像和真实图像的嵌入视为来自两个连续多元高斯的样本，以便计算它们的均值和协方差；

然后，生成的图像的质量可以通过两个高斯之间的Fréchet距离来确定：

上式(μ_x，μ_g)和(∑x+∑y)分别是来自真实数据分布和生成样本的均值和协方差；

因此，FID与生成图像的质量之间存在强烈的负相关，所以FID越小代表转换得到图像质量效果越好。

由上述技术方案可知，本发明的基于潜变量特征生成的图像多风格转化方法的在MUNIT的基础上对模型进行了扩充和改进，通过设计跳跃连接对图像的风格转换提供了充分的内容特征信息的传递；风格编码生成器对图像风格编码的潜在变量进行学习，可以实现丰富的图像风格转换；Self-Attention的加入保证了图像对于边缘结构信息的关注，加强了图像转换下全局几何特性的结果；同时模型可以根据输入的风格图像为参考实现特定风格的转换，对于特定风格转换任务的开展具有重大指导意义。

本发明的有益效果如下：

1、本发明通过设计风格编码生成器对图像的风格编码空间进行拟合，增大了图像多风格转换的自由度和合理性。

2、通过在模型中使用跳跃连接，整合各个阶段图像特征，得到更好的实验结果。

3、利用生成对抗网络对转换后的图像进行优化，并在判别器中加入Self-Attention模块，从而更加关注图像的全局性和边缘细节。

4、在图像的内容编码和多风格解码阶段应用跳跃连接，充分利用图像内容特征，尽可能保留图像转换后的内容。

5、在多风格解码优化过程中，应用对抗损失在博弈下提高图像生成质量，同时在判别器下加入Self-Attention模块，更加关注转换后图像的全局性和细节信息。

附图说明

图1是本发明方法的流程图；

图2是本发明方法的原理图；

图3是本发明的Latent DSN模型的整体框架结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例所述的基于潜变量特征生成的图像多风格转化方法，包括：

S100、采集图像数据；

S200、对图像进行预处理；

S300、构建图像转化模型并优化；

S500、对转换得到的图像质量进行评估。

以下结合图2和图3对本发明实施例具体说明：

1、数据采集

通过相机将采集到的照片传输到移动处理端；

判定图片是否有严重损毁，或有一定程度的丢失。若图片不达标，需重新采集。若图片达标则对图片进行系列处理。

2、预处理

对每个图片进行了数据增强，两种随机因子操作:

1)在0.9-1.1之间随机缩放

2)在0-360之间随机旋转

3、模型构建

3.1模型训练数据集介绍

对于多风格图像转换的实验选择edges2shoes和edges2handbags数据集。edges2shoes是鞋子的边缘草图与其相对应的鞋子的彩色图像，其中包含50k张鞋子边缘草图和对应的50k张彩色鞋子图像，这50k张鞋子边缘草图是由50k张彩色图像经过HED边缘检测器生成。edges2handbags是包含137k张包的边缘草图和对应的137k彩色包图像。

图像翻译任务使用的数据集是cityscapes、facades、maps。cityscapes数据集包含3k张城市街区道路图像和其对应的分割图像，图像大小为256x256；facades数据集包含400张来自世界各地的城市和不同的建筑风格图像和对应的分割图像，图像大小为256x256；maps数据集包含1.1k张3D地图和对应的2D地图图像，图像大小为600x600。最后，在CelebA数据集下根据标签信息提取了8k男性图像和8k女性图像，将此命名为man2women。在实验中，将所有图像统一处理成256x256大小，模型多风格转换图像的大小输出也为256x256。

3.2模型算法

基于MUNIT存在的问题，本发明实施例提出了Latent DSN模型。Latent DSN模型在图像到图像转换时，对于输入图像在保留图像内容的前提下完成多风格的转换。通过对图像进行内容编码、风格编码的学习、风格编码的表示、跳跃连接和Self-Attention的网络设计实现转换任务。

图2.Latent DSN模型的整体框架。输入图像通过内容编码器对图像进行内容特征的提取，风格编码器对图像风格特征进行提取，通过Global pooling得到风格潜在变量，利用设计的风格生成器学习风格潜在变量，通过多层感知机和AdaIN Parameters对风格编码进行风格表示，结合内容编码特征在风格转换生成器下通过内容编码网络的跳跃连接完成风格图像的转换。判别器判断生成图像与真实图像的真假，我们将Self-Attention嵌入在判别器中。

以下将从内容编码器和跳跃连接；风格编码的表示和嵌入；Self-Attention在判别器下的应用；损失函数的设计；模型训练和网络设计的细节这五个方面对模型进行详细描述。

(1)内容编码器和跳跃连接

图像的风格转换是在不改变图像的内容信息的情况下实现图像风格的变换，合理内容特征的表示是实现风格转换的基础。本发明的目的是实现由A域图像I_A和B域图像I_B的相互转换。其中A域图像转换到B域图像，A域图像提供内容信息，B域图像提供风格信息。

内容编码器主要作用于A域图像I_A，内容编码器先对A域图像I_A在卷积层下进行下采样，在下采样每一个卷积层后保留编码的中间层，为了对A域图像I_A的内容信息进行充分的提取，在卷积层后接入残差模块，最终得到A域图像I_A的内容编码表示。内容特征是实现图像解码的关键，这中间包含了内容的边缘、结构、纹理等图像信息。有研究利用跳跃连接不同尺度的特征信息嵌入到解码网络，使细节内容尤其是边缘特征得到了强化。我们将内容编码器不同尺度的特征矢量保留下来，在转换生成器下进行跳跃连接时，根据需要进行使用。经过卷积层和残差模块对A域图像I_A进行内容特征提取，得到的内容编码潜在变量为Z_cA。

(2)风格编码的表示和嵌入

B域图像I_B提供转换中的风格信息，风格编码器对B域图像I_B进行风格特征的提取。风格编码器主要由卷积层构成，包括下采样层，为了保留B域图像I_B的全局信息，在卷积层的最后一层加入了Global average pooling，并对整个feature map求平均值，在全连接层下得到风格编码潜在变量Z_sB。

为实现图像到图像的转换下风格编码的随机控制，我们设计了一个风格生成器。图像的风格是对图像的色彩、抽象等表示，并不如图像内容那么复杂。经过实验验证，风格编码潜在变量Z_sB对于诸如人脸图像数据用8维就可以表示。对风格生成器主要由全连接层构成，将随机噪声Z作为输入，经过风格生成器学习得到风格潜在变量Z_sB，在判别器的最大最小博弈下优化风格生成器。由于风格潜在变量Z_sB的维度比较低，生成对抗网络可以较好的拟合图像的风格潜在变量Z_sB。在最终的模型测试阶段，给定具体的风格图像做参考得到的风格潜在变量，传递到风格图像生成器中，指导具体风格的图像任务的转换。

风格潜在变量Z_sB经过多层感知(MLP)得到图像风格参数γ和β，送入AdaptiveInstance Normalization(AdaIN)层从而控制图像的风格。

公式(1)中的γ，β是多层感知MLP的输出，Z_c是图像编码的潜在变量的表示，μ和σ是图像编码的潜在变量Z_c的均值和方差。通过AdaIN层将内容编码Z_c和风格编码Z_s进行连接，实现了风格编码Z_s与内容编码Z_c的嵌入。

AdaIN的输出馈送到残差模块进行图像上采样，实现风格图像的生成。基于实验结果我们选取内容编码的卷积层的后两层作为跳跃连接的连接层，之所以没有将卷积层的第一层作为跳跃连接的连接层是因为卷积层的第一层包含了大量的内容和风格表示，如果将第一层作为连接层将会引入A域图像I_A的过多信息，这其中可能包含A域图像I_A的风格信息。综上，在风格生成的设计上，将内容编码卷积层的第二和第三层与生成器的上采样对应部分进行连接，风格生成器将输出转换得到的多风格图像

(3)Self-Attention在判别器下的应用

Self-Attention模块在Self-Attention GAN中得到了成功的应用，Self-Attention是为了在特征提取过程中学习到全局特征之间的依赖关系。在卷积网络中，每个卷积核的尺寸都是很有限的(一般为1,3,5)，只能覆盖中心像素点周围很小一块邻域。因此对于距离较远的特征，例如图像的结构信息，便难以捕获。Self-Attention由于直接计算图像中任意两个像素点之间的关系，从而获取图像的全局几何特征。

对于风格图像生成器对应的风格图像判别器，整体由卷积层构成，通过风格图像判别器对生成的风格图像和真实的风格图像进行真假的判断。加入Self-Attention后判别器将更加关注风格图像的全局几何特征，对于生成器而言为了欺骗判别器会生成更加具有全局性的风格图像，在生成器和判别器对抗过程中，风格生成器最后输出的风格图像会逐渐提高。

(4)损失函数的设计

为了优化各个模块，损失函数的设计至关重要。Latent DSN模型由内容编码器、风格编码器、风格编码生成器、风格编码判别器、风格图像生成器、风格图像判别器组成。Latent DSN模型的损失函数在上述部件上进行参数优化。

对于内容编码器的优化，利用重构误差进行优化。通过A域图像I_A内容编码潜在变量Z_cA和A域图像I_A风格编码潜在变量Z_sA得到重构的A域图像

将重构的A域图像

做内容编码得到潜在变量

对应的B域图像I_B得到重构内容编码潜在变量

利用L1损失进行内容编码模块的优化。

对于图像的重构误差，整体的过程如上述分析。

对于风格编码器的优化，采用对抗损失和转换风格编码损失。转换风格编码损失通过A域I_A经过风格转换得到B域风格图像

经过风格编码器得到风格编码潜在变量

B域图像I_B也可以转换生成A域的风格图像

再得到风格编码潜在变量

则转换风格编码损失可表示为。

风格生成器A记作G_sA和风格判别器A记作D_sA的对抗损失：

这里的p(z)是随机变量z的分布，本发明采用高斯分布。同理，可以得到风格生成器B的对抗损失。

因此，风格图像转换A到B的对抗损失为：

Z_cA是A域图像的内容编码潜在向量，Z_sA是B域图像的风格编码潜在向量，G_AB是A域到B域风格生成器，D_AB是A域到B域风格判别器。同样的可以求的B域到A域转换的图像转换的对抗损失。

因此，整体的损失函数如下：

最终形成交替更新的损失函数：

其中λ₁＝1.0，λ₂＝0.1，λ₃＝10.0，λ₄＝1.0，λ₅＝1.0。

(5)模型训练和网络设计的细节

Latent DSN模型采用Adam优化器进行网络参数的优化，其中β₁＝0.5，β₂＝0.999，学习率初始化为0.0001，并且每训练完一轮，学习率进行指数降低，其中Batchsize为1。为了实现生成对抗网络训练的稳定性，Latent DSN模型对图像生成器和风格图像判别器加入1-Lipschitz约束条件，同时可以加速模型的训练速度。对于风格编码生成器和风格编码判别器不进行约束，主要因为风格编码的潜在变量维度比较低。Latent DSN模型将Self-Attention模块加入到风格图像判别器卷积层的第一层的输出后，对于对抗损失主要采用LSGAN损失设计。

4.模型评估

4.1评价指标

在衡量图像转换的定量效果上，通过Inception Score(IS)和FID来衡量转换得到的图像质量效果。Inception score(IS)基于类概率分布中的熵来评估图像，使用inception network对生成的图像进行分类，IS越大说明转换得到的图像质量越高。Fréchet Inception Distance(FID)首先将生成的图像嵌入到初始网络的所选层的潜在特征空间中。其次，将生成的图像和真实图像的嵌入视为来自两个连续多元高斯的样本，以便可以计算它们的均值和协方差。然后，生成的图像的质量可以通过两个高斯之间的Fréchet距离来确定：

上式(μ_x，μ_g)和(∑x+∑y)分别是来自真实数据分布和生成样本的均值和协方差。因此，FID与生成图像的质量之间存在强烈的负相关，所以FID越小代表转换得到图像质量效果越好。

结构相似性(structural similarity index,SSIM)是一种衡量两幅图像相似度的指标。如果两幅图像是压缩前和压缩后的图像，那么SSIM算法就可以用来评估压缩后的图像质量。本研究利用SSIM衡量多风格转换得到的图像与真实风格图像的相似性，SSIM越高代表图像相似性越高。

4.2结果对比

本发明提出的Latent DSN模型将与风格变换中经典的模型UNIT和MUNIT进行定性和定量比较，结果如表1所示。

表1对比结果

表1中A→B指的是数据集下图像由A域转换到B域图像，例如cityscapes数据集下A→B是指由街区道路图像转换到对应的街区道路分割图像。本发明提出的模型在各个衡量指标上都展示了一定的优势，这也说明了本发明实施例的模型的优越性。

在本实施例中有些细节设计可采用多种模式，比如：

1)跳跃链接可使用不同的连接方式，比如中间添加一些基础模块，如卷积模块，注意力模块，残差模块等；

2)可设计不同的风格编码器(如VAE，小型GAN结构等)

3)判别器下可加入不同的注意力机制(如通道注意力机制，十字交叉注意力机制，sigmoid注意力机制等)。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于潜变量特征生成的图像多风格转化方法，其特征在于：

包括以下步骤：

S100、采集图像数据；

S200、对图像进行预处理；

S300、构建图像转化模型并优化；

S500、对转换得到的图像质量进行评估。

2.根据权利要求1所述的基于潜变量特征生成的图像多风格转化方法，其特征在于：所述S100、采集图像数据；具体包括：

通过相机将采集到的照片传输到移动处理端；

判定图片是否有严重损毁，若图片不达标，需重新采集。

3.根据权利要求1所述的基于潜变量特征生成的图像多风格转化方法，其特征在于：所述S200、对图像进行预处理；具体包括：

对每个图片进行了数据增强，两种随机因子操作：

1)在0.9-1.1之间随机缩放；

2)在0-360之间随机旋转。

4.根据权利要求1所述的基于潜变量特征生成的图像多风格转化方法，其特征在于：所述S300构建图像转化模型；

具体包括：

S301、构建模型训练数据集；

5.根据权利要求4所述的基于潜变量特征生成的图像多风格转化方法，其特征在于：所述Latent DSN模型包括输入图像通过内容编码器对图像进行内容特征的提取，风格编码器对图像风格特征进行提取，通过Global pooling得到风格潜在变量，利用设计的风格生成器学习风格潜在变量，通过多层感知机和AdaIN Parameters对风格编码进行风格表示，结合内容编码特征在风格转换生成器下通过内容编码网络的跳跃连接完成风格图像的转换；判别器判断生成图像与真实图像的真假，将Self-Attention嵌入在判别器中。

6.根据权利要求4所述的基于潜变量特征生成的图像多风格转化方法，其特征在于：所述内容编码器和跳跃连接的具体步骤如下：