CN117649338A - 一种用于人脸图像编辑的生成对抗网络逆映射方法 - Google Patents
一种用于人脸图像编辑的生成对抗网络逆映射方法 Download PDFInfo
- Publication number
- CN117649338A CN117649338A CN202410121094.1A CN202410121094A CN117649338A CN 117649338 A CN117649338 A CN 117649338A CN 202410121094 A CN202410121094 A CN 202410121094A CN 117649338 A CN117649338 A CN 117649338A
- Authority
- CN
- China
- Prior art keywords
- hidden
- image
- inverse mapping
- hidden vector
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 90
- 239000013598 vector Substances 0.000 claims abstract description 161
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000008859 change Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 description 14
- 238000012545 processing Methods 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000011158 quantitative evaluation Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910001092 metal group alloy Inorganic materials 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种用于人脸图像编辑的生成对抗网络逆映射方法,如下:将基于风格的生成对抗网络得到合成隐向量、合成图像组成合成隐向量‑合成图像对;采用最小化第一逆映射隐向量与合成隐向量之间的距离构建第一损失;将两组合成隐向量混合构建插值隐向量‑插值图像对,用插值隐向量‑插值图像作为线性变化约束构建第二损失;采用第一损失、第二损失训练编码器;利用训练好的编码器对输入图像进行逆映射得到中间扩展隐空间W+中的第二逆映射隐向量。本发明由于合成隐向量来自中间原始隐空间W,且利用第一损失和第二损失训练编码器,因此得到的第二逆映射隐向量能保持中间原始隐空间W的优良性质。
Description
技术领域
本发明涉及图像处理技术领域,更具体的,涉及一种用于人脸图像编辑的生成对抗网络逆映射方法。
背景技术
近年来,生成对抗网络在图像合成方面取得了重大进展。尤其是由于基于风格的生成对抗网络(StyleGAN)隐空间的编辑潜力,其图像处理能力受到广泛关注。为了成功编辑图像,首先必须执行StyleGAN逆映射,将图像逆映射到预先训练好的StyleGAN的隐空间中,得到一个隐向量。StyleGAN逆映射已经探索了各种隐空间。其中,最常用的是StyleGAN的原始空间W和扩展空间W+。有研究表明,原始空间W提供了优越的可编辑性,而扩展空间W+更具表现力,产生的失真更小。
逆映射可以通过对隐向量执行逐图优化来实现。尽管基于优化的方法具有很高的重构质量,但它们容易对图像过拟合,从而限制了它们的编辑能力。相比之下,基于编码器的方法使用编码器网络将图像映射到的隐空间中,其紧凑的输出空间提供更高的可编辑性,并且通过一次前向传递提供更快的反演速度。虽然基于编码器的方法在编辑性上有优势,但是对于重构复杂的域外图像还有一定的差距。
最近,出现了大量的基于StyleGAN逆映射技术的面部编辑方法。虽然这些方法中许多都强调重构质量和可编辑性,但对隐向量的解耦合性却很少进行研究。目前对于语义间耦合的研究,旨在探索一个更加全新解耦合的空间,但是空间的变化意味着重构质量和可编辑性的变化。例如风格空间S已经提出用于解耦合编辑,但是隐空间S有限的可编辑性对其实际应用提出了挑战。另外,提高域外样本的编辑性也是我们将解决的重要问题之一。复杂的域外样本经过编辑后常表现出关键部位的形变或无法准确地保留特殊妆容等复杂信息的情况。现有的生成对抗网络逆映射技术能够利用扩展或微调隐空间的方法,对图像进行较准确的重构。然而,微调后的隐空间只适用于当前重构隐向量,一旦对重构隐向量进行语义编辑后,编辑后的隐向量无法完整地保留分布外信息。
发明内容
本发明为了解决以上现有技术存在的不足与缺陷的问题,提供了一种用于人脸图像编辑的生成对抗网络逆映射方法。
为实现上述本发明目的,采用的技术方案如下:
一种用于人脸图像编辑的生成对抗网络逆映射方法,所述方法包括步骤如下:
将利用基于风格的生成对抗网络得到中间原始隐空间W中的合成隐向量、合成图像组成合成隐向量-合成图像对;
采用最小化第一逆映射隐向量与合成隐向量之间的距离构建第一损失;其中所述第一逆映射隐向量通过编码器对合成图像逆映射得到;
将两组合成隐向量混合构建插值隐向量-插值图像对,并用插值隐向量-插值图像作为线性变化约束构建第二损失;
采用第一损失、第二损失训练编码器;
利用训练好的编码器对输入图像进行逆映射得到中间扩展隐空间W+中的第二逆映射隐向量。
优选地,所述将利用基于风格的生成对抗网络得到中间原始隐空间W中的合成隐向量、合成图像组成合成隐向量-合成图像对,包括:
基于风格的生成对抗网络,通过第一函数由输入隐空间映射到中间原始隐空间W,得到合成隐向量,通过第二函数从中间原始隐空间W中的合成隐向量生成合成图像,将合成隐向量、合成图像组成合成隐向量-合成图像对。
优选地,所述采用最小化第一逆映射隐向量与合成隐向量之间的距离构建第一损失,包括:通过对合成图像逆映射得到的第一逆映射隐向量,计算第一逆映射隐向量与合成隐向量之间的最小平方误差,将最小平方误差作为第一损失。
优选地,所述将两组合成隐向量混合构建插值隐向量-插值图像对,包括:
将两组合成隐向量进行加权求和得到插值隐向量;
利用基于风格的生成对抗网络的生成器根据插值隐向量得到插值图像;
将插值隐向量、插值图像组成插值隐向量-插值图像对。
优选地,所述并用插值隐向量-插值图像作为线性变化约束构建第二损失,包括:
通过对插值图像逆映射得到的逆映射插值隐向量;
计算逆映射插值隐向量与插值隐向量之间的最小平方误差,将最小平方误差作为第二损失。
优选地,所述方法还包括:构建重构损失、身份损失和增量损失,并结合第一损失函数、第二损失函数共同训练编码器;
所述重构损失,用于确保合成图像和第一重构图像之间的像素级和感知级相似性;
所述身份损失,用于衡量合成图像和第一重构图像之间的身份相似度;
所述增量损失,用于控制不同风格向量的之间的方差,使得逆映射隐向量靠近中间原始隐空间W;
其中,所述第一重构图像由第一逆映射隐向量通过生成对抗网络的生成器重构得到。
进一步地,所述重构损失通过计算合成图像的L2损失、LPIPS损失,对L2损失、LPIPS损失进行加权求和得到。
进一步地,所述身份损失,通过计算人脸识别网络提取合成图像的特征与人脸识别网络提取第一重构图像的特征的相似度得到。
进一步地,则所述增量损失的表达式为:
其中,N表示生成对抗网络的样式模块的层数,表示逆映射隐向量各维度的偏移量。
进一步地,所述方法还包括:将得到第二逆映射隐向量输入到生成对抗网络的生成器得到第二重构图像,使用输入图像和第二重构图像调整优化生成对抗网络的生成器的参数,定义调整优化目标为:
其中,表示可学习感知图像块相似度,/>表示基于风格的对抗生成网络的生成器,/>表示权重系数,/>表示L2损失函数,/>表示输入图像。
本发明的有益效果如下:
本发明提供的逆映射方法提高了图像的解耦合性可编辑性,并保证了重构质量,本发明从解耦合性的角度重新审视了生成对抗网络的逆映射。从两个不同的方面建立线性逆映射空间。一方面利用生成对抗网络的中间原始隐空间的固有解耦合性质,利用来自中间原始隐空间/>的合成隐向量来引导编码器的输出空间。另一方面通过使用插值隐向量在逆映射空间上引入线性变化约束。由于合成隐向量来自中间原始隐空间W,且利用了第一损失和第二损失训练了编码器,因此得到的第二逆映射隐向量也能保持中间原始隐空间W的优良性质。
附图说明
图1是本发明所述用于人脸图像编辑的生成对抗网络逆映射方法的步骤流程图。
图2是不采用合成码混合方法的实例示意图。
图3是采用合成码混合方法的实例示意图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例1
如图1所示,一种用于人脸图像编辑的生成对抗网络逆映射方法,所述方法包括步骤如下:
将利用基于风格的生成对抗网络得到的中间原始隐空间W中的合成隐向量、合成图像组成合成隐向量-合成图像对;
采用最小化第一逆映射隐向量与合成隐向量之间的距离构建第一损失;其中所述第一逆映射隐向量通过编码器对合成图像逆映射得到;
将两组合成隐向量混合构建插值隐向量-插值图像对,并用插值隐向量-插值图像作为线性变化约束构建第二损失;
采用第一损失、第二损失训练编码器;
利用训练好的编码器对输入图像进行逆映射,得到中间扩展隐空间W+中的第二逆映射隐向量。
本实施例采用中间扩展隐空间W+,因为它能够平衡重建-可编辑性。训练一个编码器E来推断中间扩展隐空间W+中的隐向量,进一步限制编码器的输出空间,为基于风格的生成对抗网络的逆映射提供一个解耦合和可编辑的空间。
本实施例通过逆映射隐向量逆映射到编码器的输出空间中,实现解耦合和可编辑的StyleGAN逆映射。本实施例在两个方面促进向输出空间的映射,一方面,在训练编码器时,通过最小化第一逆映射隐向量与合成隐向量(也称真实目标隐向量)之间的距离构建的第一损失,使编码器的输出空间接近StyleGAN的中间原始隐空间;另一方面,将两个合成隐向量混合构成插值隐向量-插值图像对,并用插值隐向量-插值图像作为线性变化约束构建第二损失。通过这两个损失训练的编码器,利用训练好的编码器对输入图像进行逆映射得到第二逆映射隐向量,可以实现将逆映射隐向量逆映射到编码器的输出空间中,因此编码器的输出空间更加线性和更接近中间原始隐空间/>,提高了StyleGAN逆映射技术的解耦合性和可编辑性。本实施例将以上在两个方面促进向输出空间映射的方法称为合成码混合方法(Synthetic Code Mixing,SCM)。
在实施例中,中间原始隐空间是中间隐空间的一种,常用的还有中间扩展隐空间W+。中间扩展隐空间W+是在中间原始隐空间W的基础上加入随机性,相当于扩展了中间原始隐空间W。通过编码器可以得到的中间隐空间W或W+中的逆映射隐向量。由于中间原始隐空间空间更加线性,编辑性和解耦合性更加优秀,但是不是每张图像都能完美的重构;而中间扩展隐空间W+的重构效果更好,但是由于不是原始的隐空间导致编辑性不如中间原始隐空间W。因此令训练好的编码器的输出在中间扩展隐空间W+,并且希望输出的隐向量离中间原始隐空间W接近,从而保证具有中间原始隐空间W的优良性质。也就是说本发明能够将任意输入图像逆映射,得到中间扩展隐空间W+中的第二逆映射隐向量。同时由于合成隐向量来自中间原始隐空间W,且利用了第一损失和第二损失训练了编码器,因此得到的第二逆映射隐向量也能保持中间原始隐空间W的优良性质,如图2、图3所示。
在本实施例中,所述的输入图像可以是合成图像,也可以是真实图像,训练好的编码器的作用是输入任意一张图像,都能预测出该图像对应的中间隐空间中的隐向量(即输出为逆映射隐向量),该逆映射隐向量在通过生成器就能重构出输入图像(也就是重构图像)。
在一个具体的实施例中,所述将利用基于风格的生成对抗网络得到中间原始隐空间W中的合成隐向量、合成图像组成合成隐向量-合成图像对,包括:
基于风格的生成对抗网络,通过第一函数由输入隐空间映射到中间原始隐空间W,得到合成隐向量,通过第二函数从中间原始隐空间W中的合成隐向量生成合成图像,将合成隐向量、合成图像组成合成隐向量-合成图像对。
在本实施例中,基于风格的生成对抗网络的生成图像可以表示为两个函数: Z→W和g: W/>X。其中,Z表示输入隐空间,通常为高斯分布;W表示中间原始隐空间,通常用于逆映射;X表示图像空间。
在一个具体的实施例中,基于风格的生成对抗网络的解耦合特性,即StyleGAN的中间原始隐空间由于从/>到/>的解纠缠映射而具有高解耦合质量。因此,利用来自中间原始隐空间/>的合成隐向量来引导编码器的输出空间向中间原始隐空间/>移动,从而使输出空间更加线性。具体,首先通过对输入隐空间,通常指定为高斯分布,在输入隐空间中随机采样一些隐向量,并通过第一函数/>将隐向量z映射得到到合成隐向量。然后,我们使用函数将合成隐向量w生成合成图像x,并将合成隐向量、合成图像组成一个合成隐向量-合成图像对(w,x)。当对合成图像x进行逆映射时,对应的合成隐向量w可被视为真实目标隐向量。由于合成隐向量w是来自中间原始隐空间/>,因此引入一个基于合成隐向量w的正则化项,以保持编码器的输出空间接近中间原始隐空间/>。
具体来说,所述采用最小化第一逆映射隐向量与合成隐向量之间的距离构建第一损失,包括:
通过对合成图像逆映射得到的第一逆映射隐向量,计算第一逆映射隐向量与合成隐向量之间的最小平方误差,将最小平方误差作为第一损失。
其中,第一损失的函数表达式如下:
式中,表示合成隐向量-合成图像对,/>表示通过对合成图像逆映射得到的第一逆映射隐向量,/>表示L2范数损失函数。
这种正则化使编码器的输出空间更线性,更接近中间原始隐空间W,从而有更好的解耦合和可编辑性。
在一个具体的实施例中,为了进一步提高编码器的输出空间的线性程度,在两组合成隐向量之间施加线性变化约束。具体利用两组合成隐向量之间的插值隐向量来设计线性约束。在合成隐向量-合成图像对的基础上构造了插值隐向量。当给定两组合成隐向量-合成图像对/>和/>,构造插值隐向量-插值图像对/>。
具体,所述将两组合成隐向量混合构建插值隐向量-插值图像对,包括:
将两组合成隐向量进行加权求和得到插值隐向量;
利用基于风格的生成对抗网络的生成器根据插值隐向量得到插值图像;
将插值隐向量、插值图像组成插值隐向量-插值图像对。
具体的数学表达式如下:
式中,表示基于风格的对抗生成网络StyleGAN的生成器,/>表示权重系数,其取值范围为/>,/>表示插值隐向量,/>、/>表示两组合成隐向量。
如图3所示,对于输出空间,插值图像逆映射得到的逆映射插值隐向量位于连接和/>的直线上。
基于此,通过插值隐向量-插值图像对来扩展训练,促使逆映射得到的插值图像的逆映射隐向量/>应接近插值隐向量/>。
在一个具体的实施例中,所述并用插值隐向量-插值图像作为线性变化约束构建第二损失,包括:
通过对插值图像逆映射得到的逆映射插值隐向量;
计算逆映射插值隐向量与插值隐向量之间的最小平方误差,将最小平方误差作为第二损失。
其中,所述第二损失的函数表达式如下:
式中,表示通过对插值图像/>逆映射得到的逆映射插值隐向量;/>表示插值隐向量;/>表示 L2范数损失函数。
在一个具体的实施例中,除了以上两种损失之外,所述方法还包括:构建重构损失、身份损失和增量损失,并结合第一损失函数、第二损失函数共同训练编码器;
所述重构损失,用于确保合成图像和第一重构图像之间的像素级和感知级相似性;
所述身份损失,用于衡量合成图像和第一重构图像之间的身份相似度;
所述增量损失,用于控制不同风格向量的之间的方差,使得逆映射隐向量靠近中间隐空间W;
其中,所述第一重构图像由第一逆映射隐向量通过生成对抗网络的生成器重构得到。
在一个具体的实施例中,所述重构损失通过计算合成图像的L2损失、LPIPS损失,对L2损失、LPIPS损失进行加权求和得到。
其中,所述重构损失的函数表达式如下:
其中,表示L2损失,/>表示LPIPS损失,/>、/>表示权重系数;L2和LPIPS损失需要两个参数(x,G(E(x)),x表示用于训练合成图像,G(E(x))表示第一重构图像。
本实施例使用L2损失和LPIPS损失来确保输入和第一重构图像之间的像素级和感知级相似性。
在一个具体的实施例中,所述身份损失,通过计算人脸识别网络提取合成图像的特征与人脸识别网络提取重构图像的特征的相似度,从而衡量合成图像和重构图像之间的身份相似度。
其中,所述身份损失的函数表达式如下:
其中,表示人脸识别网络,/>表示生成器对编码器输出逆映射隐向量处理得到的重构图像,/>表示余弦相似度,/>表示用于训练的合成图像。
在一个具体的实施例中,所述增量损失,用于控制不同风格向量的之间的方差,使得逆映射隐向量靠近中间隐空间;
当编码器输出的逆映射隐向量表示为,则所述增量损失的表达式为:
其中,N表示生成对抗网络的样式模块的层数,表示逆映射隐向量各维度的偏移量。
在一个具体的实施例中,训练编码器的总体损失函数定义为:
在本实施例中,由于合成图像的质量没有真实图像好,完全利用合成图像训练得到的编码器,如果用来逆映射一张较为复杂的真实图像,得到的逆映射隐向量用来重构这张图像的质量可能没有那么好,因此加入部分真实图像来训练编码器。对于真实图像参与训练编码器,训练时采用重构损失、身份损失和增量损失进行训练。
在一个具体的实施例中,所述方法还包括:为了进一步提高重建图像的质量,接着微调生成对抗网络的生成器,具体,将得到第二逆映射隐向量输入到生成对抗网络的生成器得到第二重构图像,使用输入图像和第二重构图像调整优化生成对抗网络的生成器的参数,以便输入图像可以准确地映射为逆映射隐向量。
其中,定义调整优化目标为:
其中,表示可学习感知图像块相似度,/>表示基于风格的对抗生成网络的生成器,/>表示权重系数,/>表示L2损失函数,/>表示输入图像。
通过本实施例所述的方法得到的第二逆映射隐向量在通过生成器后不仅能完美的重构出原输入图像,而且该第二逆映射隐向量是更利于编辑的(更解耦合、编辑视觉效果更好)。
为了验证本实施例所述的用于人脸图像编辑的生成对抗网络逆映射方法的技术效果,本实施例使用CelebA-HQ测试集来评估。此外,本实施例使用网络上收集的另外200个具有挑战性的面部图像进行评估。将本实施例所述的方法与三种众所周知的逆映射方法进行了比较:e4e、PTI和Cycle Encoding。e4e在中间扩展隐空间中训练编码器,并鼓励将输出空间向中间原始隐空间/>方向移动。PTI从迭代优化开始,以推断初始隐向量,然后稍微微调生成器以适应输入图像。Cycle Encoding首先根据循环方案在不同的空间中训练编码器,然后对生成器进行微调。为了公平的比较,本实施例没有使用Cycle Encoding的基于优化的细化步骤。对于所有基线方法,使用它们的官方实现。为了进行定量评价,我们对CelebA-HQ测试集的前1000个样本进行了评价。
首先评价方法的解耦合性,使用InterfaceGAN进行图像处理。InterfaceGAN执行隐向量编辑为,其中/>为编辑权重,n为对应语义属性的单位法向量。从两个方面来评价解耦合性。首先,当向目标语义方向编辑隐向量时,编辑不应该修改其他语义属性。其次,解耦合模型期望以较小的编辑权重/>获得所需的编辑量级。这是基于这样一个事实,即具有较大/>的更有可能修改其他语义属性。
通过本实施例所述的方法和基线方法的视觉比较。本实施例所述的方法实现了更解耦合的编辑结果。基线方法编辑的图像在编辑微笑或年龄语义时倾向于添加眼镜。由基线编辑的图像在旋转面部时显示出微笑。此外,我们使用相同的编辑权重对编辑幅度进行了比较。如上所述,我们的目标是使用较小的编辑权重来获得特定的编辑幅度,因为较小的编辑权重不太可能修改其他属性。与基线方法比较,本实施例所述的方法实现了最显著的编辑,证明了其使用较小的编辑权重有效编辑语义属性的能力。
在定量评估方面,我们采用两个指标将本实施例所述的方法与基线方法进行比较。第一个度量感知路径长度(Perceptual path length,PPL),测量潜在空间的线性度。我们修改PPL来测量实际逆映射到的隐空间的线性度。具体来说,我们首先将两个图像逆映射为两个隐向量,然后测量两个紧密插值的隐向量构成的图像之间的感知距离。平均PPL计算如下:
其中,,/>是一个小的正数,/>表示感知距离,slerp表示球面线性插值。
我们通过采样10万对样本来计算期望。PPL的结果如表1所示。本实施例所述的方法实现的PPL明显小于基线方法,这表明我们的方法的输出空间更加线性。第二个度量是在相同的编辑权重下度量编辑量级。为了评估编辑幅度,我们利用姿态编辑,因为评估旋转角度比其他属性更准确。MediaPipe用于评估面部图像的旋转角度。从表2可以看出,本实施例所述的方法比其他方法实现了更大幅度的旋转角度,这表明本实施例所述的方法可以用更小的编辑权值获得特定的编辑。
表1
表2
我们提供了不同图像编辑方法的可视化比较,在所有方法中应用相同的编辑权重。可以看到,我们的方法达到了视觉上最令人愉悦的编辑效果。Cycle Encoding在编辑后的图像中引入了一些变形,例如嘴巴和外观。PTI往往会丢失输入图像的关键细节,例如眼镜和眼睛。在这里,基线方法很难有效地编辑卡通图像。相比之下,我们的方法始终提供高质量的编辑结果。这种优异的可编辑性在使用StyleCLIP的编辑结果中得到进一步体现。
为了定量评价的可编辑性,我们测量不同方法相同编辑量级下的图像与输入图像的身份相似度。具体来说,我们利用姿态编辑中的旋转角度来控制编辑的程度。表3显示了身份保存的结果。本实施例所述的方法始终在所有编辑量级中实现最准确的身份保存。
本实施例所述的方法与其他方法相比,重构质量优于基线方法。它准确地保留了输入图像的细节,如头发、帽子和背景。基线方法很难重构像的嘴和眼睛这样的特征,而本实施例所述的方法成功地重建了这些特征。
表4给出了本实施例所述的方法的定量评估,使用了四个不同的指标:身份相似性评分、LPIPS、均方误差(MSE)和结构相似性MS-SSIM。我们使用Curricularface人脸识别网络计算身份相似度得分,该网络独立于损失函数(ArcFace)。结果表明,本实施例所述的方法在所有指标上都有明显的改进。此外,表5提供了更具挑战性的图像的定量比较。在这些情况下,本实施例所述的方法比基线方法取得了实质性的改进。
表4
表5
实施例2
基于实施例1所述人脸图像编辑的生成对抗网络逆映射方法,本实施例提供了一个具体应用实例,如图3所示是合成码混合(Synthetic Code Mixing,SCM)的实例。SCM从两个方面实现了逆映射的隐向量向线性子空间的变化。首先,中间原始隐空间内的区域比外部区域更线性。其次,利用两个逆映射隐向量之间的插值隐向量可以施加线性变化约束。在没有使用我们的SCM方法之前,逆映射的隐向量落入非线性区域,远离中间原始隐空间/>。在编码器的训练中添加SCM的约束,即第一损失/>和第二损失/>,就能将逆映射隐向量强制到更线性的区域,接近中间原始隐空间/>。因此,对合成图像使用SCM逆映射能得到更易解耦合、更易编辑的隐向量。在训练好编码器之后,固定编码器参数不变,对于每张输入图像,训练好的编码器会输出一个可用于重构的第二逆映射隐向量(也称枢轴隐向量,枢轴隐向量是指由训练好的编码器逆映射得到),使用输入图像与第二重构图像之间的差距微调生成器后,可以得到近乎完美的重构。
为了在重建和可编辑性之间达到平衡,我们使用50%来自FFHQ数据集的真实图像,50%的合成图像训练了编码器。总共,我们训练编码器进行了250K次迭代,在前20000次迭代中,只训练第一个样式向量。然后,每训练2000步,我们逐渐增加一个样式向量。,,/>1,/>,/>,/>。对于微调生成器的步骤,我们使用与现有文献[Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or. Pivotal tuning for latent-based editing of real images. arXiv preprintarXiv:2106.05744, 2021]中描述的相同的超参数。对于所有的实验,我们使用在FFHQ数据集上预训练好的StyleGAN2生成器。
本实施例所述的方法可以实现高质量的重建和高视觉保真度的图像处理,即使是域外的卡通图像。实验结果表明,本实施例所述的方法在解耦核性、可编辑性和重建质量方面都具有优越的性能。值得注意的是,本实施例所述的方法是能够对域外卡通图像进行高质量的重构和解耦合图像处理的。
实施例3
本实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现所述用于人脸图像编辑的生成对抗网络逆映射方法的步骤。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
在一个具体的实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现所述用于人脸图像编辑的生成对抗网络逆映射方法的步骤。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述方法包括步骤如下:
将利用基于风格的生成对抗网络得到的中间原始隐空间W中的合成隐向量、合成图像组成合成隐向量-合成图像对;
采用最小化第一逆映射隐向量与合成隐向量之间的距离构建第一损失;其中所述第一逆映射隐向量通过编码器对合成图像逆映射得到;
将两组合成隐向量混合构建插值隐向量-插值图像对,并用插值隐向量-插值图像作为线性变化约束构建第二损失;
采用第一损失、第二损失训练编码器;
利用训练好的编码器对输入图像进行逆映射得到中间扩展隐空间W+中的第二逆映射隐向量。
2.根据权利要求1所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述将利用基于风格的生成对抗网络得到中间原始隐空间W中的合成隐向量、合成图像组成合成隐向量-合成图像对,包括:
基于风格的生成对抗网络,通过第一函数由输入隐空间映射到中间原始隐空间W,得到合成隐向量,通过第二函数从中间原始隐空间W中的合成隐向量生成合成图像,将合成隐向量、合成图像组成合成隐向量-合成图像对。
3.根据权利要求1所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述采用最小化第一逆映射隐向量与合成隐向量之间的距离构建第一损失,包括:
通过对合成图像逆映射得到的第一逆映射隐向量,计算第一逆映射隐向量与合成隐向量之间的最小平方误差,将最小平方误差作为第一损失。
4.根据权利要求1所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述将两组合成隐向量混合构建插值隐向量-插值图像对,包括:
将两组合成隐向量进行加权求和得到插值隐向量;
利用基于风格的生成对抗网络的生成器根据插值隐向量得到插值图像;
将插值隐向量、插值图像组成插值隐向量-插值图像对。
5.根据权利要求4所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述并用插值隐向量-插值图像作为线性变化约束构建第二损失,包括:
通过对插值图像逆映射得到的逆映射插值隐向量;
计算逆映射插值隐向量与插值隐向量之间的最小平方误差,将最小平方误差作为第二损失。
6.根据权利要求1所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述方法还包括:构建重构损失、身份损失和增量损失,并结合第一损失、第二损失共同训练编码器;
所述重构损失,用于确保合成图像和第一重构图像之间的像素级和感知级相似性;
所述身份损失,用于衡量合成图像和第一重构图像之间的身份相似度;
所述增量损失,用于控制不同风格向量的之间的方差,使得逆映射隐向量靠近中间原始隐空间 W;
其中,所述第一重构图像由第一逆映射隐向量通过生成对抗网络的生成器重构得到。
7.根据权利要求6所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述重构损失通过计算合成图像的L2损失、LPIPS损失,对L2损失、LPIPS损失进行加权求和得到。
8.根据权利要求6所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述身份损失,通过计算人脸识别网络提取合成图像的特征与人脸识别网络提取第一重构图像的特征的相似度得到。
9.根据权利要求6所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述增量损失的表达式为:
其中,N表示生成对抗网络的样式模块的层数,表示逆映射隐向量各维度的偏移量。
10.根据权利要求1~9任一项所述的用于人脸图像编辑的生成对抗网络逆映射方法,其特征在于:所述方法还包括:将得到第二逆映射隐向量输入到生成对抗网络的生成器得到第二重构图像,使用输入图像和第二重构图像调整优化生成对抗网络的生成器的参数,定义调整优化目标为:
其中,表示可学习感知图像块相似度,/>表示基于风格的对抗生成网络的生成器,表示权重系数,/>表示L2损失函数,/>表示输入图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410121094.1A CN117649338B (zh) | 2024-01-29 | 2024-01-29 | 一种用于人脸图像编辑的生成对抗网络逆映射方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410121094.1A CN117649338B (zh) | 2024-01-29 | 2024-01-29 | 一种用于人脸图像编辑的生成对抗网络逆映射方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117649338A true CN117649338A (zh) | 2024-03-05 |
CN117649338B CN117649338B (zh) | 2024-05-24 |
Family
ID=90043702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410121094.1A Active CN117649338B (zh) | 2024-01-29 | 2024-01-29 | 一种用于人脸图像编辑的生成对抗网络逆映射方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117649338B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200356810A1 (en) * | 2019-05-06 | 2020-11-12 | Agora Lab, Inc. | Effective Structure Keeping for Generative Adversarial Networks for Single Image Super Resolution |
CN113963087A (zh) * | 2021-10-12 | 2022-01-21 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型训练方法、装置及存储介质 |
CN114418872A (zh) * | 2021-12-28 | 2022-04-29 | 杭州电子科技大学 | 一种基于mGANprior的真实图像美感增强方法 |
CN114783017A (zh) * | 2022-03-17 | 2022-07-22 | 北京明略昭辉科技有限公司 | 基于逆映射的生成对抗网络优化方法及装置 |
CN115511758A (zh) * | 2022-08-17 | 2022-12-23 | 浙江理工大学 | 一种基于图像插值生成编码技术的图像生成方法 |
CN116449305A (zh) * | 2023-04-17 | 2023-07-18 | 山东工商学院 | 基于可控变分自编码器的稠密时变阵列构建方法及系统 |
CN116563443A (zh) * | 2023-03-02 | 2023-08-08 | 武汉唯理科技有限公司 | 一种基于3d生成对抗网络的鞋子外观设计和用户定制系统 |
CN116724330A (zh) * | 2021-05-14 | 2023-09-08 | 脸萌有限公司 | 使用层级变分编码器的高分辨率肖像风格化框架 |
US20230289608A1 (en) * | 2019-04-30 | 2023-09-14 | Agora Lab, Inc. | Optimizing Supervised Generative Adversarial Networks via Latent Space Regularizations |
-
2024
- 2024-01-29 CN CN202410121094.1A patent/CN117649338B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230289608A1 (en) * | 2019-04-30 | 2023-09-14 | Agora Lab, Inc. | Optimizing Supervised Generative Adversarial Networks via Latent Space Regularizations |
US20200356810A1 (en) * | 2019-05-06 | 2020-11-12 | Agora Lab, Inc. | Effective Structure Keeping for Generative Adversarial Networks for Single Image Super Resolution |
CN116724330A (zh) * | 2021-05-14 | 2023-09-08 | 脸萌有限公司 | 使用层级变分编码器的高分辨率肖像风格化框架 |
CN113963087A (zh) * | 2021-10-12 | 2022-01-21 | 北京百度网讯科技有限公司 | 图像处理方法、图像处理模型训练方法、装置及存储介质 |
CN114418872A (zh) * | 2021-12-28 | 2022-04-29 | 杭州电子科技大学 | 一种基于mGANprior的真实图像美感增强方法 |
CN114783017A (zh) * | 2022-03-17 | 2022-07-22 | 北京明略昭辉科技有限公司 | 基于逆映射的生成对抗网络优化方法及装置 |
CN115511758A (zh) * | 2022-08-17 | 2022-12-23 | 浙江理工大学 | 一种基于图像插值生成编码技术的图像生成方法 |
CN116563443A (zh) * | 2023-03-02 | 2023-08-08 | 武汉唯理科技有限公司 | 一种基于3d生成对抗网络的鞋子外观设计和用户定制系统 |
CN116449305A (zh) * | 2023-04-17 | 2023-07-18 | 山东工商学院 | 基于可控变分自编码器的稠密时变阵列构建方法及系统 |
Non-Patent Citations (3)
Title |
---|
QINGYAN BAI 等: "High-fidelity GAN Inversion with Padding Space", COMPUTER VISION AND PATTERN RECOGNITION, 27 July 2022 (2022-07-27), pages 1 - 26 * |
XUDONG MAO 等: "Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and Editability", IN PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA (MM ’22), 14 October 2022 (2022-10-14), pages 2032 - 2041, XP059128045, DOI: 10.1145/3503161.3548134 * |
操伟业: "基于生成对抗网络的潜在空间语义表达算法研究", 中国优秀硕士学位论文全文数据库信息科技辑(月刊), no. 02, 15 February 2023 (2023-02-15), pages 138 - 3511 * |
Also Published As
Publication number | Publication date |
---|---|
CN117649338B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Data augmentation via latent space interpolation for image classification | |
US11562521B2 (en) | Generating facial position data based on audio data | |
CN111932444A (zh) | 基于生成对抗网络的人脸属性编辑方法及信息处理终端 | |
KR102602112B1 (ko) | 얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체 | |
Dogan et al. | Semi-supervised image attribute editing using generative adversarial networks | |
Wei et al. | A comparative study of CNN-and transformer-based visual style transfer | |
CN111861924A (zh) | 一种基于进化gan的心脏磁共振图像数据增强方法 | |
Yao et al. | Feature-style encoder for style-based gan inversion | |
CN117649338B (zh) | 一种用于人脸图像编辑的生成对抗网络逆映射方法 | |
Jin et al. | Image restoration method based on GAN and multi-scale feature fusion | |
CN112686817A (zh) | 一种基于不确定性估计的图像补全方法 | |
Peng et al. | Towards open-ended text-to-face generation, combination and manipulation | |
Wang et al. | Benchmarking and analyzing 3d-aware image synthesis with a modularized codebase | |
Lv et al. | Point Cloud Denoising Algorithm Based on Noise Classification | |
Liu et al. | Text-Driven Generative Domain Adaptation with Spectral Consistency Regularization | |
Wang et al. | MSG-Voxel-GAN: multi-scale gradient voxel GAN for 3D object generation | |
Altakrouri et al. | Image to image translation networks using perceptual adversarial loss function | |
CN110866436B (zh) | 基于卷积神经网络特征重构的眼镜自动去除方法 | |
Peng et al. | HiFiSketch: High Fidelity Face Photo-Sketch Synthesis and Manipulation | |
Deng et al. | Semantic-aware noise driven portrait synthesis and manipulation | |
Li et al. | I2I translation model based on CondConv and spectral domain realness measurement: BCS-StarGAN | |
Miao et al. | Image generation of traditional Chinese window grilles based on generative adversarial networks | |
CN114742695B (zh) | 一种基于性别约束的渐进式人脸老化系统 | |
Li et al. | Frequency domain disentanglement for arbitrary neural style transfer | |
Yang et al. | ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |