CN112001839B - 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 - Google Patents
基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112001839B CN112001839B CN202010719069.5A CN202010719069A CN112001839B CN 112001839 B CN112001839 B CN 112001839B CN 202010719069 A CN202010719069 A CN 202010719069A CN 112001839 B CN112001839 B CN 112001839B
- Authority
- CN
- China
- Prior art keywords
- image
- training
- semantic
- cross
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000009466 transformation Effects 0.000 title claims abstract description 21
- 230000001537 neural effect Effects 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 142
- 230000006870 function Effects 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002829 reductive effect Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 241000220225 Malus Species 0.000 description 4
- 244000141359 Malus pumila Species 0.000 description 4
- 235000011430 Malus pumila Nutrition 0.000 description 4
- 235000015103 Malus silvestris Nutrition 0.000 description 4
- 235000021016 apples Nutrition 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000283074 Equus asinus Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000011426 transformation method Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical group C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000283086 Equidae Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种基于语义特征变换的跨域图像转换方法、计算机设备和存储介质,所述方法包括:获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据第一图像进行跨域转换的需转换图像;将第一图像以及第二图像输入语义特征提取网络,分别得到与第一图像对应的第一语义特征,以及与第二图像对应的第二语义特征;将第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。采用本方法能够减少了原始图像中冗余信息的干扰,生成的跨域图像具有稳定性,并且应用比较广泛。
Description
技术领域
本申请涉及跨域图像迁移技术领域,特别是涉及一种基于语义特征变换的跨域图像转换方法、计算机设备和存储介质。
背景技术
用一类输入图像生成另一类输出图像,并且输入图像和输出图像存在一定语义对应关系的任务,都称为跨域图像转换。近年来跨域图像转换技术的发展离不开人工智能技术的崛起。在2012年Imagenet大规模图像识别比赛中,Alexnet以优异的成绩获得冠军,引爆了人工智能新一轮的发展热潮。之后,优秀的图像分类网络层出不穷,比如:VGG、InceptionNet、ResNet、DenseNet等等。除了图像分类之外,深度学习神经网络还在语义分割、图像识别、物体检测、风格迁移、自然语言处理、语音识别、推荐系统等领域有着越来越广泛的应用。自从Gatys等人将深度学习技术应用于风格迁移领域,该领域便逐渐成为了一个热门的研究方向。
在现有技术中,现有的大多数跨域图像转换算法在利用深度学习神经网络从图像级别进行图像的转换,但是图像中的许多信息是冗余的,比如图像中物体的颜色、纹理、与转换无关的其它物体等等,这些信息对于判别这幅图像可能有作用,但是对转换来说,这些信息是没有必要的。并且基于图像级别的图像转换获取的转换图像质量不高,不可避免的存在着模糊,或转换失败等问题,因此提高生成图像的质量是当前在该领域需要解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够获取高质量跨域图像的基于语义特征变换的跨域图像转换方法、计算机设备和存储介质。
一种基于语义特征变换的跨域图像转换方法,包括:
获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
将所述第一图像以及第二图像输入语义特征提取网络,分别得到与所述第一图像对应的第一语义特征,以及与所述第二图像对应的第二语义特征;
将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。
优选的,将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像包括:
其中,所述训练后的跨域图像深度神经学习网络包括:训练后的语义特征转换器以及图像生成器;
将所述第一语义特征与第二语义特征输入所述训练后的语义特征转换器,得到与所述第一图像相关的第二转换语义特征;
将所述第二转换语义特征输入所述训练后的图像生成器,得到跨域图像。
优选的,训练所述跨域图像深度神经学习网络包括:
获取第一训练图像以及第二训练图像,其中第一训练图像与第二训练图像分别以随机采样的方式从对应的第一图像域与第二图像域得到;
将所述第一训练图像以及第训练二图像输入语义特征提取网络,分别得到与所述第一训练图像对应的第一训练语义特征,以及与所述第二训练图像对应的第二训练语义特征;
将所述第一训练语义特征与第二训练语义特征输入语义特征对抗网络,得到与所述第一训练图像相关的第二训练转换语义特征,并计算特征损失函数;
将所述第二训练转换语义特征、第一训练图像以及第二训练图像输入所述图像对抗网络,得到训练跨域图像,并计算图片损失特征;
根据所述特征损失函数以及图片损失特征计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的语义特征转换器以及图像生成器;
若所述总损失函数不符合预设标准,则调节所述语义特征转换器以及图像生成器的参数,再重新获取第一训练图像和第二训练图像对所述跨域图像深度神经学习网络进行训练,直至所述总损失函数符合预设标准。
优选的,将所述第一训练语义特征与第二训练语义特征输入语义特征对抗网络,得到与所述第一训练图像相关的第二训练转换语义特征,并计算特征损失函数包括:
其中,所述语义特征对抗网络包括语义特征转换器以及语义特征判别器;
将所述第二训练语义特征输入所述语义特征转换器,得到第二训练转换语义特征;
将所述第一训练语义特征以及第二训练转换语义特征输入所述语义特征判别器,得到第一特征损失函数;
将所述第二训练转换语义特征输入所述语义特征转换器进行逆转换,将得到的转换结果与所述第二训练转换语义特征进行计算,得到第二特征损失函数;
根据所述第一特征损失函数以及第二特征损失函数进行计算,得到特征损失函数。
优选的,所述语义特征转换器包括2个残差块结构;
所述语义特征判别器包括5个卷积层。
优选的,将所述第二训练转换语义特征、第一训练图像以及第二训练图像输入所述图像对抗网络,得到训练跨域图像,并计算图片损失特征包括:
其中,所述图像对抗网络包括图像生成器以及图像判别器;
将所述第二训练转换语义特征输入所述图像生成器,得到所述训练跨域图像以及第二重构图像;
将所述第二转换图像、第二重构图像以及第一训练图像输入所述图像判别器,得到图像损失函数。
优选的,所述图像生成器包括3个残差缺块结构以及2层反卷积;
所述图像判别器包括7个卷积层。
优选的,还包括:将所述第二图像作为参照图像,将所述第一图像作为依据所述第二图像进行跨域转换的需转换图像。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
将所述第一图像以及第二图像输入语义特征提取网络,分别得到与所述第一图像对应的第一语义特征,以及与所述第二图像对应的第二语义特征;
将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
将所述第一图像以及第二图像输入语义特征提取网络,分别得到与所述第一图像对应的第一语义特征,以及与所述第二图像对应的第二语义特征;
将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。
上述基于语义特征变换的跨域图像转换方法、计算机设备和存储介质,通过提取图像的语义特征,并在语义特征级别进行转换生成跨域图像,以避免在图像级别进行转换时,图像中颜色、纹理以及与转换无关的其他冗余信息造成影响,这样有效提高转换图像的质量。
附图说明
图1为一个实施例中基于语义特征变换的跨域图像转换方法的流程示意图;
图2为一个实施例中训练跨域图像深度神经学习网络的流程示意图;
图3为一个实施例中残差块的结构示意图;
图4为一个实施例中基于语义特征变换的跨域图像转换方法的网络结构图;
图5为一个实施例中基于语义特征变换的跨域图像转换装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,提供了一种基于语义特征变换的跨域图像转换方法,包括:
步骤101,获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
步骤102,将第一图像以及第二图像输入语义特征提取网络,分别得到与第一图像对应的第一语义特征,以及与第二图像对应的第二语义特征;
步骤103,将第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。
在本实施例中,首先对需转换图像以及转换时参照图像利用语义特征提取网络进行语义特征的提取,再将图像的语义特征输入训练后具有转换能力的跨域图像深度神经学习网络进行图像转换,最终得到具有参照图像特征的跨域图像。
在步骤101中,第一图像和第二图像具有一定相似度,或是具有某些相同特征的图像。例如,第一图像为橘子,第二图像为苹果树,进行跨域图像转换后,将第二图像中的苹果树上的苹果都转换为橘子,其中,苹果和橘子的形状是相似的,并且都为水果。又例如,第一图像为马,第二图像为驴,进行跨域图像转换后,将第二图像中的驴转换为马,而第二图像风格,颜色,背景等均不发生改变。同样的,马和驴具有相似的姿态。
在步骤102中,利用语义特征提取网络(VGG)作为语义特征提取工具。
在其中一实施例中,语义特征提取网络可为跨域图像深度神经学习网络的一部分,也就是说,在进行图像转换时,可将第一图像和第二图像直接输入训练后的跨域图像深度神经学习网络,就可直接得到跨域图像,不需要额外进行语义特征的提取。
在本实施例中,利用深度神经学习网络在图像的语义特征级别进行转换。在众多深度神经网络中,卷积神经网络(Convolutional Neural Network,CNN)最适合处理图像数据,所以CNN逐渐成为了解决图像处理问题最常见的方法之一。在一般情况下,CNN分为多个层次,不同层次的网络之间通过前向传播分级处理图像信息,可以从不同的维度提取图像特征,每层网络的输出被称为特征图(Feature map)。可以这么理解,输入图像经过CNN处理之后,去掉了一些冗余的细节信息而只保留了真正与内容或者风格相关的信息。
本方法还包括:将第二图像作为参照图像,将第一图像作为依据第二图像进行跨域转换的需转换图像。
在本实施例中,第一图像和第二图像可均为需转换图像,且均为参照图像,进行转换。也就是说,将第一图像中的橘子转换为苹果,将第二图像中苹果树上的苹果转换为橘子。
在步骤102中,包括:训练后的跨域图像深度神经学习网络包括:训练后的语义特征转换器以及图像生成器;
将第一语义特征与第二语义特征输入所述训练后的语义特征转换器,得到与第一图像相关的第二转换语义特征;
将第二转换语义特征输入训练后的图像生成器,得到跨域图像。
在本实施例中,第一语义特征和第二语义特征依次经过训练后的语义特征转换器以及图像生成器。
其中,训练后的语义特征转换器具有能够将语义特征进行转换的能力,具体包括将第一语义特征与第二语义特征在语义特征级别上进行转换,得到具有第一图像特征的第二转换语义特征,还可以得到具有第二图像特征的第一转换语义特征。
其中,训练后的图像生成器具有将转换语义特征生成跨域图像的能力,具体包括,将第二转换语义特征生成具有第一图像特征的跨域图像,或将第一语义转换语义特征生成具有第二图像特征跨域图像。
如图2所述,训练跨域图像深度神经学习网络包括:
步骤201,获取第一训练图像以及第二训练图像,其中第一训练图像与第二训练图像分别以随机采样的方式从对应的第一图像域,与第二图像域得到;
步骤202,将所第一训练图像以及第训练二图像输入语义特征提取网络,分别得到与第一训练图像对应的第一训练语义特征,以及与第二训练图像对应的第二训练语义特征;
步骤203,将所第一训练语义特征与第二训练语义特征输入语义特征对抗网络,得到与第一训练图像相关的第二训练转换语义特征,并计算特征损失函数;
步骤204,将第二训练转换语义特征、第一训练图像以及第二训练图像输入图像对抗网络,得到训练跨域图像,并计算图片损失特征;
步骤205,根据特征损失函数以及图片损失特征计算得到总损失函数,若总损失函数符合预设标准,则得到训练后的语义特征转换器以及图像生成器;
若所述总损失函数不符合预设标准,则调节所述语义特征转换器以及图像生成器的参数,再重新获取第一训练图像和第二训练图像对所述跨域图像深度神经学习网络进行训练,直至所述总损失函数符合预设标准。
在对深度神经学习网络进行训练时,训练使得评判生成结果的损失函数最小,尽管学习过程是自动的,但是仍然需要人们去设计行而有效的损失函数。最简单的一种损失函数,就是让CNN的生成图像与目标图像之间的欧几里得距离最小化,但是该方法得到的结果图像比较模糊。这是因为最小化欧几里得距离是通过最小化所有像素差的平均值来实现的,这样就会导致图像模糊。所以,单纯使用CNN似乎不能很好地完成跨域图像转换的任务。
为了解决上述问题,在对跨域图像深度神经学习网络进行训练时,为其指定一个更高的目标,比如“使神经网络的输出图像与现实图像无法区分”,然后自动学习一个满足该目标的损失函数,这就是生成式对抗网络(Generative Adversarial Network,GAN)的主要内容。生成式对抗网络的判别器用来分辨输出图像是真实的还是虚假的,同时也训练一个生成器生成目标图像,两者通过对抗使损失函数最小,那么生成图像就和真实图像就几乎无法分辨了。GAN可以生成复杂清晰的图片,生成不清晰的图片会被判别器认为是虚假的,这样,输出图像的质量便可以得到进一步的提升。因为GAN的损失函数是与数据相适应的,所以GAN可以应用于许多传统方法上需要复杂损失函数的任务。
因此,在跨域图像深度神经学习网络进行训练时,语义特征转换器以及图像生成器分别设置对抗网络,使其每一次输出可针对不同的要求计算其损失函数,并根据损失函数调节跨域图像深度神经学习网络的参数,使其输出的跨域图像符合期望并完成训练。
在步骤201中,用于训练的图像以随机采样的方式从分别从两个图像域中获取。这两个图像域分别为两种具有相似特征的图像集合。例如,其中一图像域中包括有1000张不同苹果树的图像,另一图像域中包括有1000中不同橘子的图像,每次分别从中随机获取一张进行训练,直至完成训练目标。
在步骤202中,对图像进行语义特征的提起,在实际训练中,这一步骤可为跨域图像深度神经学习网络中的一部分。
在本实施例中,采用预训练的VGG作为语义特征提取网络,算法中VGG作为语义特征提取的工具,其结果将直接参与网络的前向传播。语义特征提取网络不需要训练,只需要加载在ImageNet数据集上预训练的权重就可以得到指定层的运算结果。图片在经过语义特征提取网络之后,可以分别得到语义特征fA=VGG(xA),fB=VGG(xB)。
在步骤203中,将第一训练语义特征与第二训练语义特征输入语义特征对抗网络,得到与第一训练图像相关的第二训练转换语义特征,并计算特征损失函数包括:其中,语义特征对抗网络包括语义特征转换器以及语义特征判别器。
具体的,将第二训练语义特征输入语义特征转换器,得到第二训练转换语义特征。其中,语义特征转换器包括2个残差块结构(residual block),残差块中卷积核大小是3,步长是1,pad是1,所以语义特征经过残差块之后并不会改变其尺寸大小,语义特征转换器负责实现特征到特征的变换。也就基于两张图语义特征之间的转换,如图3所示。
具体的,第一训练语义特征以及第二训练转换语义特征输入语义特征判别器,得到第一特征损失函数。其中语义特征判别器包括5个卷积层,除了最后一个卷积层外,前4层卷积层之后都使用leaky relu作为激活函数,最后一层输出logit。卷积层采用均值为0,标准差为0.02的截断正态分布初始化器,该初始化器跟随机正态分布相似,不同的是如果获得的值与均值相差超过两个标准差的话那个值会被丢弃并重新取值,这种方法是神经网络和滤波器权重比较理想的初始化方法,如表1所示。其中,语义特征判别器已经具有判别能力,能够判别出第二训练转换语义特征是否与第一训练语义特征相同,并可计算出两者的损失函数。
Layer | Size |
input | 64*64*256 |
3*3*256conv,stride 2,pad 1 | 32*32*256 |
3*3*512conv,stride 2,pad 1 | 16*16*512 |
3*3*512conv,stride 2,pad 1 | 8*8*512 |
3*3*512conv,stride 2,pad 1 | 4*4*512 |
1*1*1conv,stride 1,pad 0 | 4*4*1 |
logit | 4*4*1 |
表1
具体的,将第二训练转换语义特征输入语义特征转换器进行逆转换,将得到的转换结果与第二训练转换语义特征进行计算,得到第二特征损失函数。为了满足循环一致性约束,经过一次变换的语义特征需要再进行一次变换,使得第二训练转换语义特征逆转换为第二训练语义特征,并与之前生成的第二训练语义特征进行损失函数的计算。
具体的,根据第一特征损失函数以及第二特征损失函数进行计算,得到特征损失函数。
如图4所示,对语义特征转换这一部分进行训练时,语义特征对抗网络包括两个语义特征转换器和两个语义特征判别器共同组成CycleGAN的结构,在语义特征级别进行变换。用FG代表语义特征转换器,FD代表语义特征判别器。语义特征转换器进行语义特征的转换,有fA→B=FGA→B(fA)以及fB→A=FGB→A(fB)。真实的语义特征和生成的语义特征输入到判别器进行对抗训练,特征判别器的对抗损失函数如式(1)和式(2)所示:
LFGANA=ElogFDA(fA)+Elog(1-FDA(fB→A)) 式(1)
LFGANB=ElogFDB(fB)+Elog(1-FDB(fA→B)) 式(2)
其中,LFGANA表示第一语义转换特征和第二语义特征之间的损失函数LFGANB表示第二语义转换特征和第一语义特征之间的损失函数,为确保通过语义特征转换后的图像与参考图像的语义特征一致。同时为了满足循环一致性约束,经过一次变换的语义特征需要再进行一次变换,有fA→B→A=FGB→A(fA→B)以及fB→A→B=FGA→B(fB→A),进而有如式(3)所示的循环一致性约束:
LFCYC=E‖fA→B→A-fA‖1+E‖fB→A→B-fB‖1 式(3)
这一损失函数的计算是为了确保转换后语义特征再经过逆转换得到语义特征与之前的语义特征保持一致,说明语义特征转换器具有转换功能。
在语义特征级别的总损失函数如式(4),其中超参数λ用于调节两种损失的权重:
LF=LFGANA+LFGANB+λLFCYC 式(4)在步骤204中,将第二训练转换语义特征、第一训练图像以及第二训练图像输入图像对抗网络,得到训练跨域图像,并计算图片损失特征包括:其中,图像对抗网络包括图像生成器以及图像判别器。
具体的,将第二训练转换语义特征输入图像生成器,得到训练跨域图像以及第二重构图像。其中图像生成器包括3个残差缺块结构以及2层反卷积。转换语义特征经过3个残差块结构,然后经过2层反卷积恢复到原图的尺寸,最后一层压缩通道数为3,并采用tanh作为激活函数,输出生成的图像,如表2所示。图像生成器有两类输出:对原本的图像实现重构,同时也会生成转换后的图像。
Layer | Size |
feature | 64*64*256 |
resblock | 64*64*256 |
resblock | 64*64*256 |
resblock | 64*64*256 |
3*3*128deconv,stride 2 | 128*128*128 |
3*3*64deconv,stride 2 | 256*256*64 |
1*1*3deconv,stride 1 | 256*256*3 |
output | 256*256*3 |
表2
具体的,将第二转换图像、第二重构图像以及第一训练图像输入所述图像判别器,得到图像损失函数。其中,图像判别器包括7个卷积层图像,如表3所示。损失函数包括第二转换图像和第一训练图像之间的损失函数,以及第二转换图像、第一训练和第二重构图像之间的损失函数。
Layer | Size |
input | 256*256*3 |
3*3*64conv,stride 2,pad 1 | 128*128*64 |
3*3*128conv,stride 2,pad 1 | 64*64*128 |
3*3*256conv,stride 2,pad 1 | 32*32*256 |
3*3*512conv,stride 2,pad 1 | 16*16*512 |
3*3*1024conv,stride 2,pad 1 | 8*8*1024 |
3*3*2048conv,stride 2,pad 1 | 4*4*2048 |
1*1*1conv,stride 1,pad 0 | 4*4*1 |
logit | 4*4*1 |
表3
如图4所示,在对转换语义特征生成跨域图像这一部分进行训练时,图像对抗网络包括由图像生成器G和图像判别器D在图像级别组成的另一组CycleGAN结构。首先,图像生成器会对原图像根据对应的语义特征进行重构,x′A=G(fA)并且x′B=G(fB),易得如式(5)的重构损失:
LREC=E‖x′A-xA‖1+E‖x′B-xB‖1 式(5)
其次,图像生成器也会生成转换后的图像,xA→B=G(fA→B)并且xB→A=G(fB→A),原始图像、转换图像和重构图像都会输入判别器进行判别约束,如式(6)和式(7):
LGANA=ElogDA(xA)+Elog(1-DA(xB→A))+ElogDA(x′A) 式(6)
LGANB=ElogDB(xB)+Elog(1-DB(xA→B))+ElogDB(x′B)式(7)
最后,是循环一致性约束,以xA为例,理想情况下它将会有如式(8)的循环一致性变换过程,其中的xA和xA→B→A应该是相同的图像:
xA→fA→fA→B→xA→B→f′A→B→fA→B→A→xA→B→A 式(8)
但是式(8)比较复杂,简化该式所代表的循环一致性约束,观察式(9)的特征重构约束:
LFRECB=E‖f′A→B-fA→B‖1 式(8)
在同时限制式(3)、式(5)和式(9)的条件下,可以推出式(8)所代表的循环一致性约束,所以用式(9)代表的特征重构约束来做循环一致性约束,同样在以xB为例时,有式(10):
LFRECA=E‖f′B→A-fB→A‖1 式(9)
综上所述,在图像级别的总损失函数如式(11)所示:
LX=LGANB+LGANB+λ(LREC+LFRECA+LFRECB) 式(10)
在步骤205中,根据步骤203计算得到的式(4)以及步骤204计算得到的式(11),得到总损失函数,如式(12):
LSFTIT=LF+LX 式(11)
若总损失函数符合预设标准,则得到训练后的语义特征转换器以及图像生成器。若总损失函数不符合预设标准,则调节语义特征转换器以及图像生成器的参数,也就是式(12)和式(4)中的超参数λ以调节损失的权重后。再分别从两个图像域中随机获取第一训练图像和第二训练图像对跨域图像深度神经学习网络进行训练,直至总损失函数符合预设标准。
在对跨域图像深度神经学习网络完成训练后,在该网络中只保留训练好的语义特征转换器以及图像生成器,通过先将图像的语义特征进行转换后,再根据转换语义特征生成跨域图像。
上述基于语义特征变换的跨域图像转换方法中,针对跨域图像转换时容易受到原始图像中冗余信息影响的问题,提出了基于语义特征变换的跨域图像转换算法,该算法在语义特征级别开始进行跨域图像转换,减少了原始图像中冗余信息的干扰,生成结果具有稳定性。并且在许多数据集上都可以完成跨域图像转换任务,应用比较广泛。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于语义特征变换的跨域图像转换装置,包括:图像获取模块501、语义特征提取模块502和跨域图像生成模块503,其中:
图像获取模块501,用于获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
语义特征提取模块502,用于将所述第一图像以及第二图像输入语义特征提取网络,分别得到与所述第一图像对应的第一语义特征,以及与所述第二图像对应的第二语义特征;
跨域图像生成模块503,用于将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。
关于基于语义特征变换的跨域图像转换装置的具体限定可以参见上文中对于基于语义特征变换的跨域图像转换方法的限定,在此不再赘述。上述基于语义特征变换的跨域图像转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义特征变换的跨域图像转换方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
将所述第一图像以及第二图像输入语义特征提取网络,分别得到与所述第一图像对应的第一语义特征,以及与所述第二图像对应的第二语义特征;
将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
将所述第一图像以及第二图像输入语义特征提取网络,分别得到与所述第一图像对应的第一语义特征,以及与所述第二图像对应的第二语义特征;
将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.基于语义特征变换的跨域图像转换方法,其特征在于,包括:
获取第一图像和第二图像,其中第一图像为参照图像,第二图像为依据所述第一图像进行跨域转换的需转换图像;
将所述第一图像以及第二图像输入语义特征提取网络,分别得到与所述第一图像对应的第一语义特征,以及与所述第二图像对应的第二语义特征;
将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像;
训练所述跨域图像深度神经学习网络包括:
获取第一训练图像以及第二训练图像,其中第一训练图像与第二训练图像分别以随机采样的方式从对应的第一图像域与第二图像域得到;
将所述第一训练图像以及第训练二图像输入语义特征提取网络,分别得到与所述第一训练图像对应的第一训练语义特征,以及与所述第二训练图像对应的第二训练语义特征;
将所述第一训练语义特征与第二训练语义特征输入语义特征对抗网络,得到与所述第一训练图像相关的第二训练转换语义特征,并计算特征损失函数;
将所述第二训练转换语义特征、第一训练图像以及第二训练图像输入图像对抗网络,得到训练跨域图像,并计算图片损失特征;
根据所述特征损失函数以及图片损失特征计算得到总损失函数,若所述总损失函数符合预设标准,则得到训练后的语义特征转换器以及图像生成器;
若所述总损失函数不符合预设标准,则调节所述语义特征转换器以及图像生成器的参数,再重新获取第一训练图像和第二训练图像对所述跨域图像深度神经学习网络进行训练,直至所述总损失函数符合预设标准;
将所述第一训练语义特征与第二训练语义特征输入语义特征对抗网络,得到与所述第一训练图像相关的第二训练转换语义特征,并计算特征损失函数包括:
其中,所述语义特征对抗网络包括语义特征转换器以及语义特征判别器;
将所述第二训练语义特征输入所述语义特征转换器,得到第二训练转换语义特征;
将所述第一训练语义特征以及第二训练转换语义特征输入所述语义特征判别器,得到第一特征损失函数;
将所述第二训练转换语义特征输入所述语义特征转换器进行逆转换,将得到的转换结果与所述第二训练转换语义特征进行计算,得到第二特征损失函数;
根据所述第一特征损失函数以及第二特征损失函数进行计算,得到特征损失函数。
2.根据权利要求1所述的跨域图像转换方法,其特征在于,将所述第一语义特征以及第二语义特征输入训练后的跨域图像深度神经学习网络,得到具有第一图像特征的跨域图像包括:
其中,所述训练后的跨域图像深度神经学习网络包括:训练后的语义特征转换器以及图像生成器;
将所述第一语义特征与第二语义特征输入所述训练后的语义特征转换器,得到与所述第一图像相关的第二转换语义特征;
将所述第二转换语义特征输入所述训练后的图像生成器,得到跨域图像。
3.根据权利要求1所述的跨域图像转换方法,其特征在于,
所述语义特征转换器包括2个残差块结构;
所述语义特征判别器包括5个卷积层。
4.根据权利要求1所述的跨域图像转换方法,其特征在于,将所述第二训练转换语义特征、第一训练图像以及第二训练图像输入所述图像对抗网络,得到训练跨域图像,并计算图片损失特征包括:
其中,所述图像对抗网络包括图像生成器以及图像判别器;
将所述第二训练转换语义特征输入所述图像生成器,得到所述训练跨域图像以及第二重构图像;
将所述第二训练图像、第二重构图像以及第一训练图像输入所述图像判别器,得到图像损失函数。
5.根据权利要求4所述的跨域图像转换方法,其特征在于,
所述图像生成器包括3个残差缺块结构以及2层反卷积;
所述图像判别器包括7个卷积层。
6.根据权利要求1-5任一项所述的跨域图像转换方法,其特征在于,还包括:
将所述第二图像作为参照图像,将所述第一图像作为依据所述第二图像进行跨域转换的需转换图像。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719069.5A CN112001839B (zh) | 2020-07-23 | 2020-07-23 | 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719069.5A CN112001839B (zh) | 2020-07-23 | 2020-07-23 | 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001839A CN112001839A (zh) | 2020-11-27 |
CN112001839B true CN112001839B (zh) | 2022-09-13 |
Family
ID=73467755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010719069.5A Expired - Fee Related CN112001839B (zh) | 2020-07-23 | 2020-07-23 | 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001839B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819687B (zh) * | 2021-01-21 | 2023-07-07 | 浙江大学 | 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109849576A (zh) * | 2019-02-28 | 2019-06-07 | 浙江大学 | 一种参考灰度图辅助绘画的方法 |
CN110047056A (zh) * | 2018-01-16 | 2019-07-23 | 西门子保健有限责任公司 | 用深度图像到图像网络和对抗网络的跨域图像分析和合成 |
CN110335193A (zh) * | 2019-06-14 | 2019-10-15 | 大连理工大学 | 一种基于生成对抗网络的目标域导向的无监督图像转换方法 |
CN110675316A (zh) * | 2019-08-29 | 2020-01-10 | 中山大学 | 基于条件生成对抗网络的多域图像转换方法、系统及介质 |
CN111275713A (zh) * | 2020-02-03 | 2020-06-12 | 武汉大学 | 一种基于对抗自集成网络的跨域语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10825219B2 (en) * | 2018-03-22 | 2020-11-03 | Northeastern University | Segmentation guided image generation with adversarial networks |
-
2020
- 2020-07-23 CN CN202010719069.5A patent/CN112001839B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047056A (zh) * | 2018-01-16 | 2019-07-23 | 西门子保健有限责任公司 | 用深度图像到图像网络和对抗网络的跨域图像分析和合成 |
CN109849576A (zh) * | 2019-02-28 | 2019-06-07 | 浙江大学 | 一种参考灰度图辅助绘画的方法 |
CN110335193A (zh) * | 2019-06-14 | 2019-10-15 | 大连理工大学 | 一种基于生成对抗网络的目标域导向的无监督图像转换方法 |
CN110675316A (zh) * | 2019-08-29 | 2020-01-10 | 中山大学 | 基于条件生成对抗网络的多域图像转换方法、系统及介质 |
CN111275713A (zh) * | 2020-02-03 | 2020-06-12 | 武汉大学 | 一种基于对抗自集成网络的跨域语义分割方法 |
Non-Patent Citations (1)
Title |
---|
CycleGAN实现图像风格迁移的神作;汐梦聆海;《https://blog.csdn.net/jackzhang11/article/details/106055333》;20200511;第1-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001839A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113569789B (zh) | 图像处理方法及装置、处理器、电子设备及存储介质 | |
CN113674191B (zh) | 一种基于条件对抗网络的弱光图像增强方法和装置 | |
CN112132741B (zh) | 一种人脸照片图像和素描图像的转换方法及系统 | |
CN112330522A (zh) | 水印去除模型训练方法、装置、计算机设备和存储介质 | |
CN110570487B (zh) | 欠采样模型生成方法、图像重建方法、装置和计算机设备 | |
CN111062324A (zh) | 人脸检测方法、装置、计算机设备和存储介质 | |
CN109345604A (zh) | 图片处理方法、计算机设备和存储介质 | |
CN111476216A (zh) | 人脸识别方法、装置、计算机设备和可读存储介质 | |
US20210192348A1 (en) | Information processing method and information processing system | |
CN109410189B (zh) | 图像分割方法以及图像的相似度计算方法、装置 | |
CN111860582B (zh) | 图像分类模型构建方法、装置、计算机设备和存储介质 | |
CN112001839B (zh) | 基于语义特征变换的跨域图像转换方法、计算机设备和存储介质 | |
CN113674190A (zh) | 基于密集连接生成对抗网络的图像融合方法和装置 | |
CN110222752B (zh) | 图像处理方法、系统、计算机设备、存储介质和芯片 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN112001838B (zh) | 基于自交叉编码器的跨域图像转换方法、装置、计算机设备和存储介质 | |
Lalitha et al. | Deepfake detection through key video frame extraction using gan | |
CN109558836B (zh) | 一种人脸图像的处理方法及相关设备 | |
JP2020003879A (ja) | 情報処理装置、情報処理方法、透かし検出装置、透かし検出方法、及びプログラム | |
CN113130028A (zh) | 基于区块链的医疗电子病历信息管理方法及系统 | |
CN112614199A (zh) | 语义分割图像转换方法、装置、计算机设备和存储介质 | |
KR20220070864A (ko) | 인공지능 기반 화질 개선 방법, 장치 및 프로그램 | |
Nasrollahi et al. | Hybrid super resolution using refined face logs | |
CN112669408A (zh) | 多模态实景地图图像生成方法、装置、计算机设备和介质 | |
Purnekar et al. | Improving the Robustness of Synthetic Images Detection by Means of Print and Scan Augmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220913 |
|
CF01 | Termination of patent right due to non-payment of annual fee |