CN112819687A - 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 - Google Patents
基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112819687A CN112819687A CN202110085308.0A CN202110085308A CN112819687A CN 112819687 A CN112819687 A CN 112819687A CN 202110085308 A CN202110085308 A CN 202110085308A CN 112819687 A CN112819687 A CN 112819687A
- Authority
- CN
- China
- Prior art keywords
- image
- domain
- conversion
- neural network
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 163
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012423 maintenance Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 78
- 238000012549 training Methods 0.000 claims description 67
- 230000009466 transformation Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 238000011426 transformation method Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 11
- 238000013508 migration Methods 0.000 description 8
- 230000005012 migration Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 239000004576 sand Substances 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质。所述方法包括:将获取的第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像。其中,在对图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过训练后的图像跨域转换神经网络转换得到的转换图像,保持第一图像的内容特征的同时具有第二图像的风格特征从而实现高质量的多模态地图像跨域转换。
Description
技术领域
本申请涉及图像跨域迁移技术领域,特别是涉及一种基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质。
背景技术
跨域图像转换的主要目标是学习在源域和目标域内映射图像的函数。转换图像的内容应与输入的源域图像的内容相似,且转换图像的风格应与目标域的一致。该方向在风格转换、图像编辑、超分辨率和彩色化等领域得到了广泛的应用,受到了深度学习和计算机视觉领域研究人员的广泛关注。
早期的跨域图像转换方法使用成对样本对条件深层神经网络模型或简单回归模型进行监督训练。这些方法在许多应用程序场景中都是不切实际的,因为它们需要成对的数据。在没有配对样本的情况下,许多方法都是在无监督的情况下,利用潜在码和周期一致性约束,成功地实现了图像的转换。尽管以上方法都取得了直观、逼真的转换结果,但它们只能生成与实际情况不符的单峰转换结果。在给定一幅源域图像的情况下,有许多对应的目标域图像满足跨域图像转换的要求。为了生成多模态转换结果,人们提出了许多方法,包括MUNIT 和DRIT。这些方法通常通过设计不同的网络框架和损失约束来分离图像的内容和风格,并将图像内容(来自源域)和参考图像样式(来自目标域)结合起来,形成不同的转换结果。不同的图像转换任务在源域和目标域之间的形状和纹理都有很大的变化。图像转换任务(如photo2vangogh和photo2portrait)的形状变化较小,而转换任务(如selfie2anime、apple2orange和cat2dog)的形状变化较大。虽然目前的多模态跨域图像转换方法已经在许多图像转换任务数据集上取得了令人满意的结果,但是它们很难同时考虑这两种类型的图像转换任务。这些方法根据源域和目标域之间形状和纹理的变化量显示性能差异。
但是在一些特殊领域的应用场景中,希望提供一个可行的技术方案转换结果能反映出导向图像的风格,内容结构与源域图像高度一致),如电影后期制作和图像风格编辑,要求在图像转换过程中尽可能少地改变形状。对于这种形状变化很小或没有变化的跨域图像转换任务,现有的多模式跨域转换方法仍然存在以下问题:
1)源域图像的内容结构与转换结果图像的内容结构存在显著差异,无法满足应用需求。
2)转换结果图像与参考图像(来自目标域)的风格差异导致颜色模式的崩溃(只学习一些显著的颜色模式),颜色内容不够丰富。
发明内容
基于此,有必要针对上述技术问题,提供一种能够使得转换图像保持自身结构且具有参考图像的颜色分布的基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质。
一种基于无监督神经网络的跨域图像转换方法,所述方法包括:
获取第一图像和第二图像;
将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
可选的,将所述第一图像和第二图像输入训练后的图像跨域转换神经网络后具体包括:所述训练后的图像跨域转换神经网络包括:内容编码模型、风格编码模型、AdaIN层模型以及解码器模型;
将所述第一图像输入内容编码模型,得到与所述第一图像相关的内容语义特征;
将所述第二图像输入风格编码模型,得到与所述第二图像相关的风格语义特征;
将所述内容语义特征以及风格语义特征输入AdaIN层模型,得到具有内容特征以及风格特征的融合语义特征;
将所述融合特征输入解码器模型,得到所述转换图像。
可选的,所述风格特征为与颜色相关的风格特征。
可选的,训练所述跨域图像转换神经网络包括:
获取训练图像以及参考图像,其中,所述训练图像获取自源域图像集合,用于提供转换图像的内容特征,所述参考图形获取自目标域图像集合,用于提供转换图像的风格特征;
将所述训练图像以及参考图像输入所述跨域图像转换神经网络,得到训练转换图像;
根据所述训练转换图像、训练图像、参考图像、源域图像集合以及目标域图像集合计算所述颜色统计损失函数以及自结构保持损失函数,若各所述损失函数符合预设标准,则完成对所述跨域图像转换神经网络的训练;
若各所述损失函数不符合预设要求,则对所述跨域图像转换神经网络的各参数进行调节,重新获取所述训练图像以及参考图像输入所述跨域图像转换神经网络,直至所述损失函数符合预设标准。
可选的,所述损失函数还包括对抗性损失函数以及语义特征重建丢失函数。
可选的,对所述跨域图像转换神经网络进行训练时,所述跨域图像转换神经网络包括判别器,通过所述判别器计算对抗性损失函数。
可选的,通过所述对抗性损失函数对所述训练转换图像与目标域图像集合中的图像分布差异进行约束;
通过所述语义特征重建丢失函数,对所述训练转换图像与对应的训练图像在内容结构的一致性进行约束;
通过所述颜色统计损失函数,对所述训练转换图像与对应的参考图像在颜色风格的一致性进行约束;
通过所述自结构保持损失函数,对所述训练转换图像与对应的训练图像在图像形状和微观结构的一致性进行约束。
本申请还提供一种基于无监督神经网络的跨域图像转换装置,所述装置包括:
图像获取模块,用于获取第一图像和第二图像;
转换图像得到模块,用于将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
上述基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质,通过在对图像跨域转换神经网络进行训练时,采用颜色统计损失函数以及自结构保持损失函数进行参数调整,有效的将图像内容结构和颜色风格解耦,从而实现高质量的多模态地图像跨域迁移。
附图说明
图1为一个实施例中跨域图像转换方法的流程示意图;
图2为一个实施例中训练图像跨域转换神经网络方法的流程示意图;
图3为一个实施例中图像跨域转换神经网络架构示意图;
图4为一个实施例中跨域图像转换装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
对图像进行跨域转换也叫做图像跨域迁移,就是获取一副需要转换的图像以及一副参考图像,将两者进行转换后,得到的转换图像具有与之前图像相似的内容,或者说是保持之前图像的内容结构不变的基础上,同时具有与参考图像相似的风格。虽然基于现有的一些方法已经可以得到较为逼真的转换后的图像,但是在进行转化过程中依然存在一些问题,由于转换图像和参考图像之间的风格具有显著差异,可能引起的色彩图案的塌陷,或转换后的图像内容结构无法保持等。现有的方法无法满足图像跨域迁移任务的要求,即图像的形状(内容结构)应尽可能保持不变或变化较小,且颜色内容不够丰富等。
为了解决上述问题,如图1所示,本申请提供了一种基于无监督神经网络的跨域图像转换方法,包括以下步骤:
步骤S100,获取第一图像和第二图像;
步骤S120,将第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过训练后的图像跨域转换神经网络转换得到的转换图像,保持第一图像的内容特征的同时具有第二图像的风格特征。
在步骤S100中,第一图像为需要转换的图像,在转换得到的转换图像中应与该图像具有相同的内容结构。而第二图像为风格参考图像,即转换图像具有与该图像相同的风格。其中,第一图像可为内容结构不同的任意图像,同样的第二图像也可为风格不同的图像。
在本实施例中,风格特征为与颜色相关的风格特征以针对上述颜色塌陷的问题。
在步骤S120中,训练后的图像跨域转换神经网络可有效的将第一图像的结构内容以及第二图像的风格内容,进行自动解耦分离,再重新结合实现跨域图像转换,在转换过程中能够有效地将第二图像的颜色空间投影到生成的转换图像上去,同时也保留第一图像的内容。
在本实施例中,训练后的图像跨域转换神经网络包括:内容编码模型、风格编码模型、AdaIN层模型以及解码器模型;
将第一图像输入内容编码模型,得到与第一图像相关的内容语义特征;
将第二图像输入风格编码模型,得到与第二图像相关的风格语义特征;
将内容语义特征以及风格语义特征输入AdaIN层模型,得到具有内容特征以及风格特征的融合语义特征;
将融合特征输入解码器模型,得到转换图像。
具体的,训练后的图像跨域转换神经网络通过内容编码模型以及风格编码模分别对第一图像以及第二图像的内容结构特征以及风格特征进行学习,再将学习到的特征通过AdaIN层模型进行融合,得到新的特征,最后通过解码器依据该新的特征进行解码后得到转换图像。
如图2所示,本申请还提供了一种训练所述跨域图像转换神经网络的方法,包括:
步骤S200,获取训练图像以及参考图像,其中,训练图像获取自源域图像集合,用于提供转换图像的内容特征,所述参考图形获取自目标域图像集合,用于提供转换图像的风格特征;
步骤S220,将训练图像以及参考图像输入所跨域图像转换神经网络,得到训练转换图像;
步骤S240,根据训练转换图像、训练图像、参考图像、源域图像集合以及目标域图像集合计算颜色统计损失函数以及自结构保持损失函数,若各损失函数符合预设标准,则完成对跨域图像转换神经网络的训练;
步骤S260,若各所述损失函数不符合预设要求,则对跨域图像转换神经网络的各参数进行调节,重新获取训练图像以及参考图像输入跨域图像转换神经网络,直至损失函数符合预设标准。
在步骤S200中,训练中使用的训练图像以及参考图像均为已经标注好的数据集,如photo2vangogh和photo2portrait等。已经标注好是指输入的训练图像和输出的参考图像都是成对的,也就是说输入和其对应的输出都为已知的,其中源域图像集合,用于提供转换图像的内容特征,而目标域图像集合,用于提供转换图像的风格特征。在利用上述图像对跨域图像转换神经网络进行训练时,为随机从各图像集合中抽取一张图像进行训练,重复多次直至跨域图像转换神经网络收敛,也就是使得跨域图像转换神经网络具备转换能力且得到的转换图像满足要求。
在对跨域图像转换神经网络进行训练时,也是跨域图像转换神经网络的学习过程,而训练目标学习一个将图像从源域转换到目标域,并生成不同的多模式输出映射函数。
如图3所示,在对跨域图像转换神经网络进行构建时,与训练后的跨域图像转换神经网络相类似,跨域图像转换神经网络包括内容编码模型、风格编码模型、AdaIN层模型以及解码器模型,而不同的在于,未训练的跨域图像转换神经网络还包括判别器模型,用于计算损失函数,在下文中会进行详细阐述。
与训练后的跨域图像转换神经网络中的各模型作用相同,其中内容编码模型主要将内容图像也就是训练图像的内容提取出来,而风格编码模型主要将引导用的风格图像也就是参考图像中的风格信息提取出来。因此内容编码模型的输入是训练图像,而风格编码模型输入的是一副参考图像。AdaIN层模型主要是从训练图像提取的内容特征和从参考图像提取的风格特征进行融合,得到一个融合了内容和风格的新的特征,这个特征经过解码器模型就变成了一副新的图像也就是转换训练图像,而这副新的图像包含有内容图像的内容结构,同时拥有风格图像的风格,实现了内容和风格的融合转换。
在步骤S240中,得到训练转换图像后,还利用训练转换图像、训练图像、参考图像、源域图像集合以及目标域图像集合计算颜色统计损失函数以及自结构保持损失函数。
具体的,为了在图像跨域转换过程中保持源域图像的内容结构,本申请中提供了一种自结构保持损失函数,主要是衡量转换后的图像在内容结构上是否和输入的内容图像的内容结构是否一致。且该函数充分考虑了源域图像在语义特征空间中的长程依赖性,并将这种依赖性传递给转换后的图像。利用语义特征重构损失进一步增强了源域图像内容的结构保持性。
具体的,针对转换后的图像具有颜色塌陷等问题,本申请中还提供了一种颜色统计损失函数,将参考图像的颜色空间投影到转换后的图像上。主要负责比对转换后的新图像和参考图像在颜色统计信息上是否一致。
在对跨域图像转换神经网络进行训练时,还通过上述两种损失函数对整个网络的参数进行调整,直至各损失函数均符合预设标准。
除了上述两个损失函数外,还采用对抗性损失函数以及语义特征重建丢失函数。
具体的,对抗性损失函数主要用于使转换后的训练转换图像较为逼真,这个过程是通过将真实的训练图像和转换后的图像同时输入到判别器模型,直至转换的新图像能够满足判别器模型的要求。该模型仅仅在训练的时候使用,一旦整个网络模型训练好了,这个判别器模型就会被丢掉。
在本实施例中,通过对抗性损失函数对所述训练转换图像与目标域图像集合中的图像分布差异进行约束;通过语义特征重建丢失函数,对训练转换图像与对应的训练图像在内容结构的一致性进行约束;通过颜色统计损失函数,对训练转换图像与对应的参考图像在颜色风格的一致性进行约束;通过自结构保持损失函数,对所述训练转换图像与对应的训练图像在图像形状和微观结构的一致性进行约束。
接下来对各损失函数如何计算进行详细的阐述:
为了更好地理解以下部分,对符号进行定义,设:
Ds和Dt为源域图像集合和目标域图像集合,
xs∈Ds和xt∈Dt分别是源域图像集合中和目标域图像集合中的图像,也就是源域图像,以及目标域图像,
xr∈Dt是目标域的参考图像,
xg∈Dt是转换后图像也就是训练转换图像。
在其中一实施例中,对抗性损失函数与MUNIT类似,采S-GAN的对抗性损失函数来最小化目标域图像和训练转换图像的分布差异。
Ladv=min(Ext~PtlogD(xt)+Exs~Ps,xr~Ptlog(1-D(U(xs,xr)))(1)
公式(1)中,Ps和Pt分别是源域图像和目标域图像的分布,D是判别器模型,U(·)为跨域图像转换神经网络。
在其中一实施例中,跨域图像转换神经网络以无监督的方式将源域图像转换为目标域图像。然而,源域图像在像素级上与对应的转换图像不同。要求源域图像与对应的转换图像在语义特征空间中保持一致,这表明它们在内容结构上具有高度一致性。因此将语义特征重构损失函数定义为:
Lsfr=Exs~Ps,xr~Pt||VGG(xs)-VGG(G(E1(xs),E2(xr)))||2 (2)
公式(2)中,xr是来自目标域的参考图像,xs是源域图像,Ps和Pt分别是源域图像和目标域图像的分布,E1是内容编码器模型,E2是样式编码器模型,G 是解码器模型。VGG(·)表示预先训练的VGG16网络表示的函数,在本实施例中,采用VGG-16的relu4_1层进行图像特征提取。
在其中一实施例中,为了使转换后图像的风格与参考图像一致,从语义特征和像素点定义了颜色统计损失函数。计算出参考图像和转换后图像的语义特征之间的松弛地球移动距离(REMD)。当这个距离最小时,这两个图像具有相同的样式。
公式(1)中,n是从源域图像集合中提取的特征向量个数,Ai,Bj分别表示源域图像和转换后图像的特征集的特征向量。公式(3)中使用的余弦距离忽略了特征向量的大小,这导致视觉转换过程输出中的人工痕迹工件。
在其中一实施例中,在计算自结构保持损失函数时,图像中局部结构(如 3×3图像块)与其它所有局部结构之间的距离关系构成了一个自结构保持关系映射。该映射能反映图像局部结构在像素空间中的长程依赖关系。这种关系可以保持图像的形状和微观结构不变。这一特性在跨域图像转换任务中非常重要,特别是对于需要图像形状保持不变或尽可能少更改的任务。
具体的,首先在源域图像xs和转换后图像xg中提取3×3的面片,然后分别计算两幅图像的自结构关系映射。
接下来以源域图像xs为例,说明如何计算自结构保持关系映射。并计算了转换图像的自结构保持关系映射相似。采用用归一化内积(余弦相似性)测量两个图像块的距离:
公式(4)中,Dx,y,x0,y0表示在源域图像xs中以位置(x’,y’)和位置(x,y) 为中心的斑片px’,y’和px,y的相似性。从源域图像xs提取的面片数为N,其中N 等于使用步长1提取面片时的H×W。利用N个卷积滤波器(从源域图像xs中提取)对源域图像xs进行卷积运算,得到一个新的图像xms,其中xms是一个四维张量,即xms∈RH×W×H×W,并将其整形为RN×N。
上述基于无监督神经网络的跨域图像转换方法中,跨域图像的迁移已经取得了较为逼真的效果,但在迁移过程中还存在一些问题,如色彩图案的塌陷、内容结构无法保持等。现有的方法无法满足图像跨域迁移任务的要求,即图像的形状(内容结构)应尽可能保持不变或变化较小。为了解决这些问题,本申请中通过训练后的跨域图像转换神经网络来实现多模式跨域图像迁移。该跨域图像转换神经网络在训练过程中利用自结构注意损失保持内容结构,利用颜色约束损失将参考图像的颜色空间投影到转换后的图像中,有效地将图像内容结构和颜色风格解耦,从而实现高质量的多模态地图像跨域转换。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于无监督神经网络的跨域图像转换装置,包括:图像获取模块400和转换图像得到模块420,其中:
图像获取模块400,用于获取第一图像和第二图像;
转换图像得到模块420,用于将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
关于基于无监督神经网络的跨域图像转换装置的具体限定可以参见上文中对于基于无监督神经网络的跨域图像转换方法的限定,在此不再赘述。上述基于无监督神经网络的跨域图像转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于无监督神经网络的跨域图像转换方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一图像和第二图像;
将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.基于无监督神经网络的跨域图像转换方法,其特征在于,所述方法包括:
获取第一图像和第二图像;
将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
2.根据权利要求1所述的基于无监督神经网络的跨域图像转换方法,其特征在于,将所述第一图像和第二图像输入训练后的图像跨域转换神经网络后具体包括:所述训练后的图像跨域转换神经网络包括:内容编码模型、风格编码模型、AdaIN层模型以及解码器模型;
将所述第一图像输入内容编码模型,得到与所述第一图像相关的内容语义特征;
将所述第二图像输入风格编码模型,得到与所述第二图像相关的风格语义特征;
将所述内容语义特征以及风格语义特征输入AdaIN层模型,得到具有内容特征以及风格特征的融合语义特征;
将所述融合特征输入解码器模型,得到所述转换图像。
3.根据权利要求1所述的基于无监督神经网络的跨域图像转换方法,其特征在于,所述风格特征为与颜色相关的风格特征。
4.根据权利要求1所述的基于无监督神经网络的跨域图像转换方法,其特征在于,训练所述跨域图像转换神经网络包括:
获取训练图像以及参考图像,其中,所述训练图像获取自源域图像集合,用于提供转换图像的内容特征,所述参考图形获取自目标域图像集合,用于提供转换图像的风格特征;
将所述训练图像以及参考图像输入所述跨域图像转换神经网络,得到训练转换图像;
根据所述训练转换图像、训练图像、参考图像、源域图像集合以及目标域图像集合计算所述颜色统计损失函数以及自结构保持损失函数,若各所述损失函数符合预设标准,则完成对所述跨域图像转换神经网络的训练;
若各所述损失函数不符合预设要求,则对所述跨域图像转换神经网络的各参数进行调节,重新将内容图像以及参考图像输入所述跨域图像转换神经网络,直至所述损失函数符合预设标准。
5.根据权利要求4所述的基于无监督神经网络的跨域图像转换方法,其特征在于,所述损失函数还包括对抗性损失函数以及语义特征重建丢失函数。
6.根据权利要求5所述的基于无监督神经网络的跨域图像转换方法,其特征在于,对所述跨域图像转换神经网络进行训练时,所述跨域图像转换神经网络包括判别器,通过所述判别器计算对抗性损失函数。
7.根据权利要求5所述的基于无监督神经网络的跨域图像转换方法,其特征在于,
通过所述对抗性损失函数对所述训练转换图像与目标域图像集合中的图像分布差异进行约束;
通过所述语义特征重建丢失函数,对所述训练转换图像与对应的训练图像在内容结构的一致性进行约束;
通过所述颜色统计损失函数,对所述训练转换图像与对应的参考图像在颜色风格的一致性进行约束;
通过所述自结构保持损失函数,对所述训练转换图像与对应的训练图像在图像形状和微观结构的一致性进行约束。
8.基于无监督神经网络的跨域图像转换装置,其特征在于,所述装置包括:
图像获取模块,用于获取第一图像和第二图像;
转换图像得到模块,用于将所述第一图像和第二图像输入训练后的图像跨域转换神经网络,得到转换图像;
对所述图像跨域转换神经网络进行训练时,利用颜色统计损失函数以及自结构保持损失函数对其进行参数调整,使得通过所述训练后的图像跨域转换神经网络转换得到的所述转换图像,保持所述第一图像的内容特征的同时具有所述第二图像的风格特征。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于无监督神经网络的跨域图像转换方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于无监督神经网络的跨域图像转换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110085308.0A CN112819687B (zh) | 2021-01-21 | 2021-01-21 | 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110085308.0A CN112819687B (zh) | 2021-01-21 | 2021-01-21 | 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112819687A true CN112819687A (zh) | 2021-05-18 |
CN112819687B CN112819687B (zh) | 2023-07-07 |
Family
ID=75858609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110085308.0A Active CN112819687B (zh) | 2021-01-21 | 2021-01-21 | 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819687B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537401A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 一种基于改进的生成对抗网络的水下图像翻译方法 |
WO2023060735A1 (zh) * | 2021-10-11 | 2023-04-20 | 中国科学院深圳先进技术研究院 | 图像生成模型训练及图像生成方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019084562A1 (en) * | 2017-10-27 | 2019-05-02 | Google Llc | SEMANTICALLY COHERENT IMAGE STYLE TRANSFER |
US20200160113A1 (en) * | 2018-11-19 | 2020-05-21 | Google Llc | Training image-to-image translation neural networks |
CN112001838A (zh) * | 2020-07-23 | 2020-11-27 | 浙江大学 | 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质 |
CN112001839A (zh) * | 2020-07-23 | 2020-11-27 | 浙江大学 | 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 |
-
2021
- 2021-01-21 CN CN202110085308.0A patent/CN112819687B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019084562A1 (en) * | 2017-10-27 | 2019-05-02 | Google Llc | SEMANTICALLY COHERENT IMAGE STYLE TRANSFER |
US20200160113A1 (en) * | 2018-11-19 | 2020-05-21 | Google Llc | Training image-to-image translation neural networks |
CN112001838A (zh) * | 2020-07-23 | 2020-11-27 | 浙江大学 | 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质 |
CN112001839A (zh) * | 2020-07-23 | 2020-11-27 | 浙江大学 | 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537401A (zh) * | 2021-08-13 | 2021-10-22 | 哈尔滨工程大学 | 一种基于改进的生成对抗网络的水下图像翻译方法 |
CN113537401B (zh) * | 2021-08-13 | 2022-08-02 | 哈尔滨工程大学 | 一种基于改进的生成对抗网络的水下图像翻译方法 |
WO2023060735A1 (zh) * | 2021-10-11 | 2023-04-20 | 中国科学院深圳先进技术研究院 | 图像生成模型训练及图像生成方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112819687B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767461B (zh) | 医学影像配准方法、装置、计算机设备和存储介质 | |
CN109657583B (zh) | 脸部关键点检测方法、装置、计算机设备和存储介质 | |
CN109063742B (zh) | 蝴蝶识别网络构建方法、装置、计算机设备及存储介质 | |
CN109493417B (zh) | 三维物体重建方法、装置、设备和存储介质 | |
CN110909595B (zh) | 面部动作识别模型训练方法、面部动作识别方法 | |
JP2024501986A (ja) | 3次元顔再構築の方法、3次元顔再構築の装置、デバイスおよび記憶媒体 | |
CN112819687A (zh) | 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 | |
CN113111861A (zh) | 人脸纹理特征提取、3d人脸重建方法及设备及存储介质 | |
CN108830782B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN113313085A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
US11663798B2 (en) | System and method for manipulating two-dimensional (2D) images of three-dimensional (3D) objects | |
CN113096249A (zh) | 训练顶点重建模型的方法、图像重建方法及电子设备 | |
CN113192175A (zh) | 模型训练方法、装置、计算机设备和可读存储介质 | |
CN110008835B (zh) | 视线预测方法、装置、系统和可读存储介质 | |
Huang et al. | IA-FaceS: A bidirectional method for semantic face editing | |
CN110415341A (zh) | 一种三维人脸模型的生成方法、装置、电子设备及介质 | |
CN112883806A (zh) | 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 | |
CN112613445A (zh) | 人脸图像生成方法、装置、计算机设备和存储介质 | |
Sun et al. | A unified framework for biphasic facial age translation with noisy-semantic guided generative adversarial networks | |
CN112837236B (zh) | 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质 | |
CN112818820B (zh) | 图像生成模型训练方法、图像生成方法、装置及电子设备 | |
CN115049764A (zh) | Smpl参数预测模型的训练方法、装置、设备及介质 | |
CN113822790B (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN113538639B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
US20210224947A1 (en) | Computer Vision Systems and Methods for Diverse Image-to-Image Translation Via Disentangled Representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221214 Address after: 310058 Yuhang Tang Road, Xihu District, Hangzhou, Zhejiang 866 Applicant after: ZHEJIANG University Applicant after: Yiyuan digital (Beijing) Technology Group Co.,Ltd. Address before: 310058 Yuhang Tang Road, Xihu District, Hangzhou, Zhejiang 866 Applicant before: ZHEJIANG University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |