CN110992252A - 一种基于潜变量特征生成的图像多风格转化方法 - Google Patents
一种基于潜变量特征生成的图像多风格转化方法 Download PDFInfo
- Publication number
- CN110992252A CN110992252A CN201911204107.7A CN201911204107A CN110992252A CN 110992252 A CN110992252 A CN 110992252A CN 201911204107 A CN201911204107 A CN 201911204107A CN 110992252 A CN110992252 A CN 110992252A
- Authority
- CN
- China
- Prior art keywords
- image
- style
- conversion
- domain
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000013461 design Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 239000004816 latex Substances 0.000 claims description 2
- 229920000126 latex Polymers 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 abstract 1
- 238000013519 translation Methods 0.000 description 7
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000368 destabilizing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Processing (AREA)
Abstract
本发明的一种基于潜变量特征生成的图像多风格转化方法,可解决现有的图像转换方法在风格表示和图像质量上都不能满足需求的技术问题。包括以下步骤:S100、采集图像数据;S200、对图像进行预处理;S300、构建图像转化模型并优化;S400、基于步骤S300的图像转化模型,以步骤S200的图像数据作为输入,对图像进行转化处理;S500、对转换得到的图像质量进行评估。本发明在MUNIT的基础上对模型进行了扩充和改进,通过设计跳跃连接对图像的风格转换提供了充分的内容特征信息的传递;风格编码生成器对图像风格编码的潜在变量进行学习,可以实现丰富的图像风格转换;同时模型可以根据输入的风格图像为参考实现特定风格的转换,对于特定风格转换任务的开展具有重大指导意义。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于潜变量特征生成的图像多风格转化方法。
背景技术
由于深度学习的进步,计算机视觉下迁移学习得以快速发展,包括图像修复、角色变换、超分辨率、属性变换、图像分割、场景变换以及风格变换等。越来越多的研究开始致力于图像翻译任务,但是大部分都是在有监督学习下开展的,这中间需要大量的配对数据作为训练的支撑。而具有挑战性的无监督图像翻译研究得到了更多的关注,本文的研究便是基于未配对的多图像域之间实现相互转换。
图像间的翻译建立在图像域之间的联系上。因图像间联系的多变性,如图像所处的空间、时间和环境的变化,可以说图像间的联系往往是一对多,甚至是多对多的关系。目前的很多研究都是实现单峰映射,由一种图像域向另一种单风格域图像转换,这种单域转换可以应用在诸如图像分割任务下,然而在图像的多风格跨域转换下并不奏效。
生成对抗网络(GAN)的提出加速了深度学习下图像处理任务的进步。在图像的生成任务上,生成器和判别器通过最大最小化目标函数的博弈实现双方的共同进步。生成器为了生成欺骗判别的样本不断提高,判别器为了判断出样本的真假也在不断的优化自身能力。理想状态下双方可以达到纳什平衡。然而训练GAN是不稳定的,在此基础上提出了很多改进的方案。这其中的主要原因在于生成对抗网络中判别器的能力过于强大。在我们的模型训练过程中,利用谱归一化去稳定训练,同时利用LSGAN的损失函数作为优化损失。
图像到图像的转换。自生成对抗网络诞生后图像到图像翻译的工作得到了快速发展,提出了利用cGAN实现图像到图像转换的统一框架,同时期的CycleGAN,DiscoGAN和DualGAN通过配对的图像,在循环一致损失下对图像进行跨域转换。在有监督条件下BicycleGAN结合了条件变分自编码GAN和条件潜在回归GAN来联合执行隐编码和双向输出之间的连接,并实现性能的改进。在无监督学习下,UNIT将源域和目标域的图像映射到一个共享的潜在空间,通过共享的潜在空间解码得到目标图像。DTN通过设计特征误差实现了模态域间的转换。最近FUNIT提出少样本无监督的图像到图像转换框架,通过对图像进行内容编码和类别编码实现图像的转换。
风格迁移。基于CNN下的图像风格迁移的研究有很多。风格迁移的目标是为了保证图像内容不变的情况下实现图像的风格变换。往往对图像进行内容编码和风格编码的分离,再通过风格编码的变换嵌入到内容编码下共同解码生成风格转换后的图像。基于GAN的图像风格迁移采用的方式类似,在优化转换得到的图像上引入对抗网络。其中MUNIT实现的是多风格图像的转换,通过分离图像的内容和风格,在AdaIN下实现风格的多样化。我们的模型建立在MUNIT的基础之上,设计风格编码生成器对图像的风格编码进行拟合,同时结合跳跃连接和Self-Attention,提高了图像的多风格转换的质量和多样性。
综上可知,图像多风格转换是图像翻译任务下较为困难的研究。图像间的联系不仅仅是单方向或者单因素的,这种联系需要从多角度去分析。图像多风格转换正是建立图像间多方面联系的纽带,图像的多风格是对图像的多方面解释,可以充分表达图像的内容和语义信息。数字媒体发展下海量的图像数据推动了这项工作的发展。主流思想是MUNIT虽然实现了无监督的转换,但是图像的风格表示以及图像质量都存在不足。
为了解决MUNIT存在的不足,本研究在MUNIT基础之上加入了风格编码、DSN嵌入和self-attention模块,更加关注图像的风格编码和图像的全局性以及细节信息。通过与现有技术在各类图像翻译任务下广泛实验的比较,本发明提出的模型在定性和定量上都展示了较好的优势。
发明内容
本发明提出的一种基于潜变量特征生成的图像多风格转化方法,可解决现有的图像转换方法在风格表示和图像质量上都不能满足需求的技术问题。
为实现上述目的,本发明采用了以下技术方案:
一种基于潜变量特征生成的图像多风格转化方法,包括:
包括以下步骤:
S100、采集图像数据;
S200、对图像进行预处理;
S300、构建图像转化模型并优化;
S400、基于步骤S300的图像转化模型,以步骤S200的图像数据作为输入,对图像进行转化处理;
S500、对转换得到的图像质量进行评估。
进一步的,所述S100、采集图像数据;具体包括:
通过相机将采集到的照片传输到移动处理端;
判定图片是否有严重损毁,若图片不达标,需重新采集。
进一步的,所述S200、对图像进行预处理;具体包括:
对每个图片进行了数据增强,两种随机因子操作:
1)在0.9-1.1之间随机缩放;
2)在0-360之间随机旋转。
进一步的,所述S300构建图像转化模型;
具体包括:
S301、构建模型训练数据集;
S302、确定转化模型为Latent DSN模型,通过对图像进行内容编码、风格编码的学习、风格编码的表示、跳跃连接和Self-Attention的网络设计实现转换任务。
进一步的,所述Latent DSN模型包括输入图像通过内容编码器对图像进行内容特征的提取,风格编码器对图像风格特征进行提取,通过Global pooling得到风格潜在变量,利用设计的风格生成器学习风格潜在变量,通过多层感知机和AdaIN Parameters对风格编码进行风格表示,结合内容编码特征在风格转换生成器下通过内容编码网络的跳跃连接完成风格图像的转换;判别器判断生成图像与真实图像的真假,将Self-Attention嵌入在判别器中。
进一步的,所述内容编码器和跳跃连接的具体步骤如下:
若实现由A域图像IA和B域图像IB的相互转换;其中A域图像转换到B域图像,A域图像提供内容信息,B域图像提供风格信息;
内容编码器的作用于A域图像IA,内容编码器先对A域图像IA在卷积层下进行下采样,在下采样每一个卷积层后保留编码的中间层,为了对A域图像IA的内容信息进行充分的提取,在卷积层后接入残差模块,最终得到A域图像IA的内容编码表示;
在转换生成器下进行跳跃连接时,根据需要将内容编码器不同尺度的特征矢量保留下来;
经过卷积层和残差模块对A域图像IA进行内容特征提取,得到的内容编码潜在变量为ZcA。
进一步的,所述风格编码的表示的具体步骤如下:
假设B域图像IB提供转换中的风格信息,风格编码器对B域图像IB进行风格特征的提取;
风格编码器由卷积层构成,包括下采样层,为了保留B域图像IB的全局信息,在卷积层的最后一层加入了Global average pooling,并对整个feature map求平均值,在全连接层下得到风格编码潜在变量ZsB;
还包括风格生成器,所述风格生成器由全连接层构成,将随机噪声Z作为输入,经过风格生成器学习得到风格潜在变量ZsB,在判别器的最大最小博弈下优化风格生成器;
由于风格潜在变量ZsB的维度比较低,生成对抗网络可较好的拟合图像的风格潜在变量ZsB;在最终的模型测试阶段,给定具体的风格图像做参考得到的风格潜在变量,传递到风格图像生成器中,指导具体风格的图像任务的转换;
风格潜在变量ZsB经过多层感知(MLP)得到图像风格参数γ和β,送入AdaptiveInstance Normalization(AdaIN)层从而控制图像的风格;
公式(1)中的γ,β是多层感知MLP的输出,Zc是图像编码的潜在变量的表示,μ和σ是图像编码的潜在变量Zc的均值和方差;
通过AdaIN层将内容编码Zc和风格编码Zs进行连接,实现了风格编码Zs与内容编码Zc的嵌入;
AdaIN的输出馈送到残差模块进行图像上采样,实现风格图像的生成;
进一步的,所述S300中构建图像转化模型并优化,其中优化步骤包括:
设置损失函数对内容编码器、风格编码器、风格编码生成器、风格编码判别器、风格图像生成器、风格图像判别器分别进行参数优化;
其中,
对于内容编码器的优化,利用重构误差进行优化;通过A域图像IA内容编码潜在变量ZcA和A域图像IA风格编码潜在变量ZsA得到重构的A域图像将重构的A域图像做内容编码得到潜在变量对应的B域图像IB得到重构内容编码潜在变量利用L1损失进行内容编码模块的优化;
对于图像的重构误差,整体的过程如上述分析;
对于风格编码器的优化,采用对抗损失和转换风格编码损失;转换风格编码损失通过A域IA经过风格转换得到B域风格图像经过风格编码器得到风格编码潜在变量B域图像IB也可转换生成A域的风格图像再得到风格编码潜在变量则转换风格编码损失表示为:
风格生成器A记作GsA和风格判别器A记作DsA的对抗损失:
其中,p(z)是随机变量z的分布;
同理,得到风格生成器B的对抗损失;
因此,风格图像转换A到B的对抗损失为:
ZcA是A域图像的内容编码潜在向量,ZsA是B域图像的风格编码潜在向量,GAB是A域到B域风格生成器,DAB是A域到B域风格判别器;
同样的求的B域到A域转换的图像转换的对抗损失;
因此,整体的损失函数如下:
最终形成交替更新的损失函数:
其中λ1=1.0,λ2=0.1,λ3=10.0,λ4=1.0,λ5=1.0。
进一步的,所述S500对转换得到的图像质量进行评估;具体包括:
通过Inception Score(IS)和FID来衡量转换得到的图像质量效果;
Inception score(IS)基于类概率分布中的熵来评估图像,使用inceptionnetwork对生成的图像进行分类,IS越大说明转换得到的图像质量越高;
Fréchet Inception Distance(FID)首先将生成的图像嵌入到初始网络的所选层的潜在特征空间中;
其次,将生成的图像和真实图像的嵌入视为来自两个连续多元高斯的样本,以便计算它们的均值和协方差;
然后,生成的图像的质量可以通过两个高斯之间的Fréchet距离来确定:
上式(μx,μg)和(∑x+∑y)分别是来自真实数据分布和生成样本的均值和协方差;
因此,FID与生成图像的质量之间存在强烈的负相关,所以FID越小代表转换得到图像质量效果越好。
由上述技术方案可知,本发明的基于潜变量特征生成的图像多风格转化方法的在MUNIT的基础上对模型进行了扩充和改进,通过设计跳跃连接对图像的风格转换提供了充分的内容特征信息的传递;风格编码生成器对图像风格编码的潜在变量进行学习,可以实现丰富的图像风格转换;Self-Attention的加入保证了图像对于边缘结构信息的关注,加强了图像转换下全局几何特性的结果;同时模型可以根据输入的风格图像为参考实现特定风格的转换,对于特定风格转换任务的开展具有重大指导意义。
本发明的有益效果如下:
1、本发明通过设计风格编码生成器对图像的风格编码空间进行拟合,增大了图像多风格转换的自由度和合理性。
2、通过在模型中使用跳跃连接,整合各个阶段图像特征,得到更好的实验结果。
3、利用生成对抗网络对转换后的图像进行优化,并在判别器中加入Self-Attention模块,从而更加关注图像的全局性和边缘细节。
4、在图像的内容编码和多风格解码阶段应用跳跃连接,充分利用图像内容特征,尽可能保留图像转换后的内容。
5、在多风格解码优化过程中,应用对抗损失在博弈下提高图像生成质量,同时在判别器下加入Self-Attention模块,更加关注转换后图像的全局性和细节信息。
附图说明
图1是本发明方法的流程图;
图2是本发明方法的原理图;
图3是本发明的Latent DSN模型的整体框架结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本实施例所述的基于潜变量特征生成的图像多风格转化方法,包括:
S100、采集图像数据;
S200、对图像进行预处理;
S300、构建图像转化模型并优化;
S400、基于步骤S300的图像转化模型,以步骤S200的图像数据作为输入,对图像进行转化处理;
S500、对转换得到的图像质量进行评估。
以下结合图2和图3对本发明实施例具体说明:
1、数据采集
通过相机将采集到的照片传输到移动处理端;
判定图片是否有严重损毁,或有一定程度的丢失。若图片不达标,需重新采集。若图片达标则对图片进行系列处理。
2、预处理
对每个图片进行了数据增强,两种随机因子操作:
1)在0.9-1.1之间随机缩放
2)在0-360之间随机旋转
3、模型构建
3.1模型训练数据集介绍
对于多风格图像转换的实验选择edges2shoes和edges2handbags数据集。edges2shoes是鞋子的边缘草图与其相对应的鞋子的彩色图像,其中包含50k张鞋子边缘草图和对应的50k张彩色鞋子图像,这50k张鞋子边缘草图是由50k张彩色图像经过HED边缘检测器生成。edges2handbags是包含137k张包的边缘草图和对应的137k彩色包图像。
图像翻译任务使用的数据集是cityscapes、facades、maps。cityscapes数据集包含3k张城市街区道路图像和其对应的分割图像,图像大小为256x256;facades数据集包含400张来自世界各地的城市和不同的建筑风格图像和对应的分割图像,图像大小为256x256;maps数据集包含1.1k张3D地图和对应的2D地图图像,图像大小为600x600。最后,在CelebA数据集下根据标签信息提取了8k男性图像和8k女性图像,将此命名为man2women。在实验中,将所有图像统一处理成256x256大小,模型多风格转换图像的大小输出也为256x256。
3.2模型算法
基于MUNIT存在的问题,本发明实施例提出了Latent DSN模型。Latent DSN模型在图像到图像转换时,对于输入图像在保留图像内容的前提下完成多风格的转换。通过对图像进行内容编码、风格编码的学习、风格编码的表示、跳跃连接和Self-Attention的网络设计实现转换任务。
图2.Latent DSN模型的整体框架。输入图像通过内容编码器对图像进行内容特征的提取,风格编码器对图像风格特征进行提取,通过Global pooling得到风格潜在变量,利用设计的风格生成器学习风格潜在变量,通过多层感知机和AdaIN Parameters对风格编码进行风格表示,结合内容编码特征在风格转换生成器下通过内容编码网络的跳跃连接完成风格图像的转换。判别器判断生成图像与真实图像的真假,我们将Self-Attention嵌入在判别器中。
以下将从内容编码器和跳跃连接;风格编码的表示和嵌入;Self-Attention在判别器下的应用;损失函数的设计;模型训练和网络设计的细节这五个方面对模型进行详细描述。
(1)内容编码器和跳跃连接
图像的风格转换是在不改变图像的内容信息的情况下实现图像风格的变换,合理内容特征的表示是实现风格转换的基础。本发明的目的是实现由A域图像IA和B域图像IB的相互转换。其中A域图像转换到B域图像,A域图像提供内容信息,B域图像提供风格信息。
内容编码器主要作用于A域图像IA,内容编码器先对A域图像IA在卷积层下进行下采样,在下采样每一个卷积层后保留编码的中间层,为了对A域图像IA的内容信息进行充分的提取,在卷积层后接入残差模块,最终得到A域图像IA的内容编码表示。内容特征是实现图像解码的关键,这中间包含了内容的边缘、结构、纹理等图像信息。有研究利用跳跃连接不同尺度的特征信息嵌入到解码网络,使细节内容尤其是边缘特征得到了强化。我们将内容编码器不同尺度的特征矢量保留下来,在转换生成器下进行跳跃连接时,根据需要进行使用。经过卷积层和残差模块对A域图像IA进行内容特征提取,得到的内容编码潜在变量为ZcA。
(2)风格编码的表示和嵌入
B域图像IB提供转换中的风格信息,风格编码器对B域图像IB进行风格特征的提取。风格编码器主要由卷积层构成,包括下采样层,为了保留B域图像IB的全局信息,在卷积层的最后一层加入了Global average pooling,并对整个feature map求平均值,在全连接层下得到风格编码潜在变量ZsB。
为实现图像到图像的转换下风格编码的随机控制,我们设计了一个风格生成器。图像的风格是对图像的色彩、抽象等表示,并不如图像内容那么复杂。经过实验验证,风格编码潜在变量ZsB对于诸如人脸图像数据用8维就可以表示。对风格生成器主要由全连接层构成,将随机噪声Z作为输入,经过风格生成器学习得到风格潜在变量ZsB,在判别器的最大最小博弈下优化风格生成器。由于风格潜在变量ZsB的维度比较低,生成对抗网络可以较好的拟合图像的风格潜在变量ZsB。在最终的模型测试阶段,给定具体的风格图像做参考得到的风格潜在变量,传递到风格图像生成器中,指导具体风格的图像任务的转换。
风格潜在变量ZsB经过多层感知(MLP)得到图像风格参数γ和β,送入AdaptiveInstance Normalization(AdaIN)层从而控制图像的风格。
公式(1)中的γ,β是多层感知MLP的输出,Zc是图像编码的潜在变量的表示,μ和σ是图像编码的潜在变量Zc的均值和方差。通过AdaIN层将内容编码Zc和风格编码Zs进行连接,实现了风格编码Zs与内容编码Zc的嵌入。
AdaIN的输出馈送到残差模块进行图像上采样,实现风格图像的生成。基于实验结果我们选取内容编码的卷积层的后两层作为跳跃连接的连接层,之所以没有将卷积层的第一层作为跳跃连接的连接层是因为卷积层的第一层包含了大量的内容和风格表示,如果将第一层作为连接层将会引入A域图像IA的过多信息,这其中可能包含A域图像IA的风格信息。综上,在风格生成的设计上,将内容编码卷积层的第二和第三层与生成器的上采样对应部分进行连接,风格生成器将输出转换得到的多风格图像
(3)Self-Attention在判别器下的应用
Self-Attention模块在Self-Attention GAN中得到了成功的应用,Self-Attention是为了在特征提取过程中学习到全局特征之间的依赖关系。在卷积网络中,每个卷积核的尺寸都是很有限的(一般为1,3,5),只能覆盖中心像素点周围很小一块邻域。因此对于距离较远的特征,例如图像的结构信息,便难以捕获。Self-Attention由于直接计算图像中任意两个像素点之间的关系,从而获取图像的全局几何特征。
对于风格图像生成器对应的风格图像判别器,整体由卷积层构成,通过风格图像判别器对生成的风格图像和真实的风格图像进行真假的判断。加入Self-Attention后判别器将更加关注风格图像的全局几何特征,对于生成器而言为了欺骗判别器会生成更加具有全局性的风格图像,在生成器和判别器对抗过程中,风格生成器最后输出的风格图像会逐渐提高。
(4)损失函数的设计
为了优化各个模块,损失函数的设计至关重要。Latent DSN模型由内容编码器、风格编码器、风格编码生成器、风格编码判别器、风格图像生成器、风格图像判别器组成。Latent DSN模型的损失函数在上述部件上进行参数优化。
对于内容编码器的优化,利用重构误差进行优化。通过A域图像IA内容编码潜在变量ZcA和A域图像IA风格编码潜在变量ZsA得到重构的A域图像将重构的A域图像做内容编码得到潜在变量对应的B域图像IB得到重构内容编码潜在变量利用L1损失进行内容编码模块的优化。
对于图像的重构误差,整体的过程如上述分析。
对于风格编码器的优化,采用对抗损失和转换风格编码损失。转换风格编码损失通过A域IA经过风格转换得到B域风格图像经过风格编码器得到风格编码潜在变量B域图像IB也可以转换生成A域的风格图像再得到风格编码潜在变量则转换风格编码损失可表示为。
风格生成器A记作GsA和风格判别器A记作DsA的对抗损失:
这里的p(z)是随机变量z的分布,本发明采用高斯分布。同理,可以得到风格生成器B的对抗损失。
因此,风格图像转换A到B的对抗损失为:
ZcA是A域图像的内容编码潜在向量,ZsA是B域图像的风格编码潜在向量,GAB是A域到B域风格生成器,DAB是A域到B域风格判别器。同样的可以求的B域到A域转换的图像转换的对抗损失。
因此,整体的损失函数如下:
最终形成交替更新的损失函数:
其中λ1=1.0,λ2=0.1,λ3=10.0,λ4=1.0,λ5=1.0。
(5)模型训练和网络设计的细节
Latent DSN模型采用Adam优化器进行网络参数的优化,其中β1=0.5,β2=0.999,学习率初始化为0.0001,并且每训练完一轮,学习率进行指数降低,其中Batchsize为1。为了实现生成对抗网络训练的稳定性,Latent DSN模型对图像生成器和风格图像判别器加入1-Lipschitz约束条件,同时可以加速模型的训练速度。对于风格编码生成器和风格编码判别器不进行约束,主要因为风格编码的潜在变量维度比较低。Latent DSN模型将Self-Attention模块加入到风格图像判别器卷积层的第一层的输出后,对于对抗损失主要采用LSGAN损失设计。
4.模型评估
4.1评价指标
在衡量图像转换的定量效果上,通过Inception Score(IS)和FID来衡量转换得到的图像质量效果。Inception score(IS)基于类概率分布中的熵来评估图像,使用inception network对生成的图像进行分类,IS越大说明转换得到的图像质量越高。Fréchet Inception Distance(FID)首先将生成的图像嵌入到初始网络的所选层的潜在特征空间中。其次,将生成的图像和真实图像的嵌入视为来自两个连续多元高斯的样本,以便可以计算它们的均值和协方差。然后,生成的图像的质量可以通过两个高斯之间的Fréchet距离来确定:
上式(μx,μg)和(∑x+∑y)分别是来自真实数据分布和生成样本的均值和协方差。因此,FID与生成图像的质量之间存在强烈的负相关,所以FID越小代表转换得到图像质量效果越好。
结构相似性(structural similarity index,SSIM)是一种衡量两幅图像相似度的指标。如果两幅图像是压缩前和压缩后的图像,那么SSIM算法就可以用来评估压缩后的图像质量。本研究利用SSIM衡量多风格转换得到的图像与真实风格图像的相似性,SSIM越高代表图像相似性越高。
4.2结果对比
本发明提出的Latent DSN模型将与风格变换中经典的模型UNIT和MUNIT进行定性和定量比较,结果如表1所示。
表1对比结果
表1中A→B指的是数据集下图像由A域转换到B域图像,例如cityscapes数据集下A→B是指由街区道路图像转换到对应的街区道路分割图像。本发明提出的模型在各个衡量指标上都展示了一定的优势,这也说明了本发明实施例的模型的优越性。
在本实施例中有些细节设计可采用多种模式,比如:
1)跳跃链接可使用不同的连接方式,比如中间添加一些基础模块,如卷积模块,注意力模块,残差模块等;
2)可设计不同的风格编码器(如VAE,小型GAN结构等)
3)判别器下可加入不同的注意力机制(如通道注意力机制,十字交叉注意力机制,sigmoid注意力机制等)。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于潜变量特征生成的图像多风格转化方法,其特征在于:
包括以下步骤:
S100、采集图像数据;
S200、对图像进行预处理;
S300、构建图像转化模型并优化;
S400、基于步骤S300的图像转化模型,以步骤S200的图像数据作为输入,对图像进行转化处理;
S500、对转换得到的图像质量进行评估。
2.根据权利要求1所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述S100、采集图像数据;具体包括:
通过相机将采集到的照片传输到移动处理端;
判定图片是否有严重损毁,若图片不达标,需重新采集。
3.根据权利要求1所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述S200、对图像进行预处理;具体包括:
对每个图片进行了数据增强,两种随机因子操作:
1)在0.9-1.1之间随机缩放;
2)在0-360之间随机旋转。
4.根据权利要求1所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述S300构建图像转化模型;
具体包括:
S301、构建模型训练数据集;
S302、确定转化模型为Latent DSN模型,通过对图像进行内容编码、风格编码的学习、风格编码的表示、跳跃连接和Self-Attention的网络设计实现转换任务。
5.根据权利要求4所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述Latent DSN模型包括输入图像通过内容编码器对图像进行内容特征的提取,风格编码器对图像风格特征进行提取,通过Global pooling得到风格潜在变量,利用设计的风格生成器学习风格潜在变量,通过多层感知机和AdaIN Parameters对风格编码进行风格表示,结合内容编码特征在风格转换生成器下通过内容编码网络的跳跃连接完成风格图像的转换;判别器判断生成图像与真实图像的真假,将Self-Attention嵌入在判别器中。
6.根据权利要求4所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述内容编码器和跳跃连接的具体步骤如下:
若实现由A域图像IA和B域图像IB的相互转换;其中A域图像转换到B域图像,A域图像提供内容信息,B域图像提供风格信息;
内容编码器的作用于A域图像IA,内容编码器先对A域图像IA在卷积层下进行下采样,在下采样每一个卷积层后保留编码的中间层,为了对A域图像IA的内容信息进行充分的提取,在卷积层后接入残差模块,最终得到A域图像IA的内容编码表示;
在转换生成器下进行跳跃连接时,根据需要将内容编码器不同尺度的特征矢量保留下来;
经过卷积层和残差模块对A域图像IA进行内容特征提取,得到的内容编码潜在变量为ZcA。
7.根据权利要求6所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述风格编码的表示的具体步骤如下:
假设B域图像IB提供转换中的风格信息,风格编码器对B域图像IB进行风格特征的提取;
风格编码器由卷积层构成,包括下采样层,为了保留B域图像IB的全局信息,在卷积层的最后一层加入了Global average pooling,并对整个feature map求平均值,在全连接层下得到风格编码潜在变量ZsB;
还包括风格生成器,所述风格生成器由全连接层构成,将随机噪声Z作为输入,经过风格生成器学习得到风格潜在变量ZsB,在判别器的最大最小博弈下优化风格生成器;
由于风格潜在变量ZsB的维度比较低,生成对抗网络可较好的拟合图像的风格潜在变量ZsB;在最终的模型测试阶段,给定具体的风格图像做参考得到的风格潜在变量,传递到风格图像生成器中,指导具体风格的图像任务的转换;
风格潜在变量ZsB经过多层感知(MLP)得到图像风格参数γ和β,送入AdaptiveInstance Normalization(AdaIN)层从而控制图像的风格;
公式(1)中的γ,β是多层感知MLP的输出,Zc是图像编码的潜在变量的表示,μ和σ是图像编码的潜在变量Zc的均值和方差;
通过AdaIN层将内容编码Zc和风格编码Zs进行连接,实现了风格编码Zs与内容编码Zc的嵌入;
AdaIN的输出馈送到残差模块进行图像上采样,实现风格图像的生成;
8.根据权利要求4所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述S300中构建图像转化模型并优化,其中优化步骤包括:
设置损失函数对内容编码器、风格编码器、风格编码生成器、风格编码判别器、风格图像生成器、风格图像判别器分别进行参数优化;
其中,
对于内容编码器的优化,利用重构误差进行优化;通过A域图像IA内容编码潜在变量ZcA和A域图像IA风格编码潜在变量ZsA得到重构的A域图像将重构的A域图像做内容编码得到潜在变量对应的B域图像IB得到重构内容编码潜在变量利用L1损失进行内容编码模块的优化;
对于图像的重构误差,整体的过程如上述分析;
对于风格编码器的优化,采用对抗损失和转换风格编码损失;转换风格编码损失通过A域IA经过风格转换得到B域风格图像 经过风格编码器得到风格编码潜在变量B域图像IB也可转换生成A域的风格图像再得到风格编码潜在变量则转换风格编码损失表示为:
风格生成器A记作GsA和风格判别器A记作DsA的对抗损失:
其中,p(z)是随机变量z的分布;
同理,得到风格生成器B的对抗损失;
因此,风格图像转换A到B的对抗损失为:
ZcA是A域图像的内容编码潜在向量,ZsA是B域图像的风格编码潜在向量,GAB是A域到B域风格生成器,DAB是A域到B域风格判别器;
同样的求的B域到A域转换的图像转换的对抗损失;
因此,整体的损失函数如下:
最终形成交替更新的损失函数:
其中λ1=1.0,λ2=0.1,λ3=10.0,λ4=1.0,λ5=1.0。
9.根据权利要求4所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述S500对转换得到的图像质量进行评估;具体包括:
通过Inception Score(IS)和FID来衡量转换得到的图像质量效果;
Inception score(IS)基于类概率分布中的熵来评估图像,使用inception network对生成的图像进行分类,IS越大说明转换得到的图像质量越高;
Fréchet Inception Distance(FID)首先将生成的图像嵌入到初始网络的所选层的潜在特征空间中;
其次,将生成的图像和真实图像的嵌入视为来自两个连续多元高斯的样本,以便计算它们的均值和协方差;
然后,生成的图像的质量可以通过两个高斯之间的Fréchet距离来确定:
上式(μx,μg)和(∑x+∑y)分别是来自真实数据分布和生成样本的均值和协方差;
因此,FID与生成图像的质量之间存在强烈的负相关,所以FID越小代表转换得到图像质量效果越好。
10.根据权利要求8所述的基于潜变量特征生成的图像多风格转化方法,其特征在于:所述p(z)是随机变量z的分布,具体采用高斯分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204107.7A CN110992252B (zh) | 2019-11-29 | 2019-11-29 | 一种基于潜变量特征生成的图像多风格转化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204107.7A CN110992252B (zh) | 2019-11-29 | 2019-11-29 | 一种基于潜变量特征生成的图像多风格转化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110992252A true CN110992252A (zh) | 2020-04-10 |
CN110992252B CN110992252B (zh) | 2023-05-12 |
Family
ID=70088747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911204107.7A Active CN110992252B (zh) | 2019-11-29 | 2019-11-29 | 一种基于潜变量特征生成的图像多风格转化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992252B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365556A (zh) * | 2020-11-10 | 2021-02-12 | 成都信息工程大学 | 一种基于感知损失和风格损失的图像扩展方法 |
CN112364838A (zh) * | 2020-12-09 | 2021-02-12 | 佛山市南海区广工大数控装备协同创新研究院 | 一种利用合成的联机文本图像改进手写ocr性能的方法 |
CN112634405A (zh) * | 2020-11-30 | 2021-04-09 | 南京大学 | 一种面向众测任务发布的图文生成方法 |
CN112766079A (zh) * | 2020-12-31 | 2021-05-07 | 北京航空航天大学 | 一种基于内容风格分离的无监督图像到图像翻译方法 |
CN113096675A (zh) * | 2021-03-31 | 2021-07-09 | 厦门大学 | 一种基于生成式对抗网络的音频风格统一的方法 |
CN113344772A (zh) * | 2021-05-21 | 2021-09-03 | 武汉大学 | 一种用于地图艺术化的迁移模型的训练方法和计算机设备 |
CN113538216A (zh) * | 2021-06-16 | 2021-10-22 | 电子科技大学 | 一种基于属性分解的图像风格迁移方法 |
CN114025198A (zh) * | 2021-11-08 | 2022-02-08 | 深圳万兴软件有限公司 | 基于注意力机制的视频卡通化方法、装置、设备及介质 |
CN115375601A (zh) * | 2022-10-25 | 2022-11-22 | 四川大学 | 一种基于注意力机制的解耦表达国画生成方法 |
US20230045076A1 (en) * | 2021-07-29 | 2023-02-09 | Nvidia Corporation | Conditional image generation using one or more neural networks |
CN116310008A (zh) * | 2023-05-11 | 2023-06-23 | 深圳大学 | 一种基于少样本学习的图像处理方法及相关设备 |
CN117152622A (zh) * | 2023-10-30 | 2023-12-01 | 中国科学院空天信息创新研究院 | 边界优化模型训练、边界优化方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544442A (zh) * | 2018-11-12 | 2019-03-29 | 南京邮电大学 | 基于双重对抗的生成式对抗网络的图像局部风格迁移方法 |
US20190130212A1 (en) * | 2017-10-30 | 2019-05-02 | Nec Laboratories America, Inc. | Deep Network Embedding with Adversarial Regularization |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
-
2019
- 2019-11-29 CN CN201911204107.7A patent/CN110992252B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130212A1 (en) * | 2017-10-30 | 2019-05-02 | Nec Laboratories America, Inc. | Deep Network Embedding with Adversarial Regularization |
CN109544442A (zh) * | 2018-11-12 | 2019-03-29 | 南京邮电大学 | 基于双重对抗的生成式对抗网络的图像局部风格迁移方法 |
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
Non-Patent Citations (2)
Title |
---|
许哲豪等: "基于生成对抗网络的图片风格迁移", 《软件导刊》 * |
马春光等: "生成式对抗网络图像增强研究综述", 《信息网络安全》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365556B (zh) * | 2020-11-10 | 2021-09-28 | 成都信息工程大学 | 一种基于感知损失和风格损失的图像扩展方法 |
CN112365556A (zh) * | 2020-11-10 | 2021-02-12 | 成都信息工程大学 | 一种基于感知损失和风格损失的图像扩展方法 |
CN112634405A (zh) * | 2020-11-30 | 2021-04-09 | 南京大学 | 一种面向众测任务发布的图文生成方法 |
CN112364838A (zh) * | 2020-12-09 | 2021-02-12 | 佛山市南海区广工大数控装备协同创新研究院 | 一种利用合成的联机文本图像改进手写ocr性能的方法 |
CN112766079A (zh) * | 2020-12-31 | 2021-05-07 | 北京航空航天大学 | 一种基于内容风格分离的无监督图像到图像翻译方法 |
CN113096675A (zh) * | 2021-03-31 | 2021-07-09 | 厦门大学 | 一种基于生成式对抗网络的音频风格统一的方法 |
CN113096675B (zh) * | 2021-03-31 | 2024-04-23 | 厦门大学 | 一种基于生成式对抗网络的音频风格统一的方法 |
CN113344772B (zh) * | 2021-05-21 | 2023-04-07 | 武汉大学 | 一种用于地图艺术化的迁移模型的训练方法和计算机设备 |
CN113344772A (zh) * | 2021-05-21 | 2021-09-03 | 武汉大学 | 一种用于地图艺术化的迁移模型的训练方法和计算机设备 |
CN113538216A (zh) * | 2021-06-16 | 2021-10-22 | 电子科技大学 | 一种基于属性分解的图像风格迁移方法 |
US20230045076A1 (en) * | 2021-07-29 | 2023-02-09 | Nvidia Corporation | Conditional image generation using one or more neural networks |
CN114025198A (zh) * | 2021-11-08 | 2022-02-08 | 深圳万兴软件有限公司 | 基于注意力机制的视频卡通化方法、装置、设备及介质 |
CN115375601A (zh) * | 2022-10-25 | 2022-11-22 | 四川大学 | 一种基于注意力机制的解耦表达国画生成方法 |
CN116310008A (zh) * | 2023-05-11 | 2023-06-23 | 深圳大学 | 一种基于少样本学习的图像处理方法及相关设备 |
CN116310008B (zh) * | 2023-05-11 | 2023-09-19 | 深圳大学 | 一种基于少样本学习的图像处理方法及相关设备 |
CN117152622A (zh) * | 2023-10-30 | 2023-12-01 | 中国科学院空天信息创新研究院 | 边界优化模型训练、边界优化方法、装置、设备及介质 |
CN117152622B (zh) * | 2023-10-30 | 2024-02-23 | 中国科学院空天信息创新研究院 | 边界优化模型训练、边界优化方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110992252B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992252A (zh) | 一种基于潜变量特征生成的图像多风格转化方法 | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
Zhao et al. | Learning to forecast and refine residual motion for image-to-video generation | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN111798369B (zh) | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 | |
CN111489287A (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
CN113673307A (zh) | 一种轻量型的视频动作识别方法 | |
CN114610935B (zh) | 一种文本控制图像风格的语义图像合成的方法及系统 | |
CN112307883B (zh) | 训练方法、装置、电子设备以及计算机可读存储介质 | |
CN114821196A (zh) | 零样本图像识别方法及其识别装置、介质与计算机终端 | |
CN114359292A (zh) | 一种基于多尺度和注意力的医学图像分割方法 | |
WO2022166840A1 (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN116977457A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN112766217B (zh) | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 | |
CN111726621B (zh) | 一种视频转换方法及装置 | |
CN113781324A (zh) | 一种老照片修复方法 | |
CN112348033A (zh) | 一种协同显著性目标检测方法 | |
CN116958324A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN115880762A (zh) | 面向人机混合视觉的可伸缩人脸图像编码方法、系统 | |
CN113313721B (zh) | 基于多尺度结构的实时语义分割方法 | |
CN113298094B (zh) | 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 | |
CN115359550A (zh) | 基于Transformer的步态情绪识别方法、装置、电子设备及存储介质 | |
CN114494387A (zh) | 一种生成数据集网络模型及雾图生成方法 | |
CN114494699A (zh) | 基于语义传播与前背景感知的图像语义分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |