CN116862759A

CN116862759A - 基于生成对抗网络的个性化肖像生成系统及方法

Info

Publication number: CN116862759A
Application number: CN202310726659.4A
Authority: CN
Inventors: 吴爱国; 刘凡溢; 张致远
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-10-10
Anticipated expiration: 2043-06-19
Also published as: CN116862759B

Abstract

本发明公开了一种基于生成对抗网络的个性化肖像生成系统及方法，所述个性化肖像生成系统包括反演模块、潜在编码混合模块、合成网络模块、层调节模块、双模型间融合控制模块和多模型间融合控制模块。本发明在保证源图像人脸身份信息的情况下，能够较好的对源图像进行风格化处理，生成风格化肖像。在上述基础上，能够实现对人脸不同粒度特征的风格化强度控制，实现融合的多风格模型风格化人脸源图像，实现根据已有风格模型在无风格参考图像制作个性化训练集的条件下生成新风格的风格化模型。

Description

基于生成对抗网络的个性化肖像生成系统及方法

技术领域

本发明属于计算机视觉技术领域，涉及一种个性化肖像生成系统及方法，具体涉及一种基于生成对抗网络的个性化肖像生成系统及方法。

背景技术

个性化肖像是根据个体的特征、个性和需求进行定制的肖像艺术作品。个性化肖像不仅仅是对外貌的简单描绘，而是通过艺术家的创造力和技巧，将被描绘者的个性、情感和特征以独特而富有表现力的方式表达出来。个性化肖像可以通过不同的媒介来实现，包括绘画、摄影、数字艺术和雕塑等。它可以展现人物的真实特征，也可以通过艺术家的诠释和创作，加入一些艺术化的元素或风格，以强调被描绘者的独特性和个性特点。个性化肖像代表了一种个体化和定制化的肖像艺术形式，旨在通过艺术的表达方式展现人物的个性和独特性。

事实上在日常生活中，个性化肖像在许多方面都有着重要的作用。个性化肖像可以作为珍贵的纪念品，家庭成员、朋友的肖像画可以作为特殊场合的礼物，如生日、婚礼、毕业纪念等。个性化肖像可以用于商业用途，比如企业品牌推广，以肖像的形式呈现公司的创始人、董事会成员或员工，增强品牌的亲近感，展现企业的价值观和个性。个性化肖像可以用于社交媒体上的个人形象展示，人们可以使用个性化肖像作为头像，在社交媒体平台上展示自己的独特风格。个性化肖像还可以用作家居装饰或办公空间装饰，为空间增添独特的艺术氛围。

个性化肖像生成任务是一种特定形式的风格迁移任务，是比较有应用价值的话题。理想的个性化肖像生成技术应当满足：保持用户身份信息不过多丢失，保有一定特征辨识度的情况下，进行程度可控的风格化处理。

个性化肖像本质上为图像域间的迁移问题，从现实人脸域迁移到风格肖像域，首先要能够生成人脸图像，寻找到现实人脸域。英伟达提出的生成对抗网络模型StyleGAN2(Karras T,Laine S,Aittala M,et al.Analyzing and improving the image qualityof stylegan[C]//Proceedings of the IEEE/CVF conference on computer vision andpattern recognition.2020:8110-8119.)优秀的完成了人脸生成的任务，由于StyleGAN2拥有着良好解耦的潜在空间，将图像嵌入其潜在空间，对图像对应潜在空间中的潜在编码进行操作，可以编辑图像，通过对潜在编码的操作也能够产生不同的图像。e4e(Tov O,Alaluf Y,Nitzan Y,et al.Designing an encoder for stylegan image manipulation[J].ACM Transactions on Graphics(TOG),2021,40(4):1-14.)反演算法很好的将图像反演为StyleGAN2潜在空间中的潜在编码，方便处理调整图像。

在风格化部分，toonify(Pinkney J N M,Adler D.Resolution dependent ganinterpolation for controllable image synthesis between domains[J].arXivpreprint arXiv:2010.05334,2020.)能够通过层替换的方式，在低计算资源消耗的情况下，调整StyleGAN2生成器，使之生成不同图像域的图像。但toonify仅提供了两预训练模型生成器的层替换方法，并未给出如何获得预训练模型生成器。此外，简单的层替换使两模型生成图像所在图像域与图像域之间过度不自然。虽拥有一定风格化能力，但实用性还不足。JoJoGAN的研究人员，通过将参考风格图像反演到潜在空间，通过使用该潜在编码和噪声编码混合生成所需的潜在编码族作为自定义训练数据潜在编码族，通过将这些潜在编码输入StyleGAN2的预训练模型生成器，将输出的图片和风格图片作为训练数据对，微调StyleGAN2生成器。JoJoGAN(Chong M J,Forsyth D.Jojogan:One shot face stylization[C]//Computer Vision–ECCV 2022:17th European Conference,Tel Aviv,Israel,October23–27,2022,Proceedings,Part XVI.Cham:Springer Nature Switzerland,2022:128-152.)的优势非常明显，由于使用自定义数据集，JoJoGAN可以学习到不同的风格参考图像的风格，由于使用微调方法，其训练速度非常快，但JoJoGAN调整风格化强度的手段有限，不能对不同粒度的特征有选择的进行风格化，获得新风格一定需要风格参考图像且需要一定的训练时间获得风格化模型。

尽管许多研究人员对个性化肖像生成进行了各种方向上的探索，但还没有一种方法能够在低计算资源消耗下，低训练时间的情况下在一幅肖像图像中的不同粒度特征进行风格化程度控制，在一幅肖像种呈现出融合的多种风格。无风格参考图像条件下生成新风格的风格化模型。

发明内容

为了解决上述问题，本发明提供了一种低计算资源消耗、低时间消耗、可控的、多样的基于生成对抗网络的个性化肖像生成系统及方法。

本发明的目的是通过以下技术方案实现的：

一种基于生成对抗网络的个性化肖像生成系统，包括反演模块、潜在编码混合模块、合成网络模块、层调节模块、双模型间融合控制模块和多模型间融合控制模块，其中：

所述反演模块负责获取位于预训练StyleGAN2潜在空间，对应于源图像和风格参考图像的潜在编码；

所述潜在编码混合模块负责生成用于微调合成网络模块的潜在编码族，主要分为两个分支，一个是风格分支，一个是噪声分支，风格分支将style image作为输入，噪声分支将元素服从标准正态分布的512维列向量Z和origin image作为输入，模块的公式表示如下式：

w＝(1-α)M·w₂+α(I-M)·(βFC(z)+(1-β)w₁)

式中，潜在代码w,w_i∈R^18×512,i＝1,2，表示用于输入合成网络的风格向量，R^18×512表示每个w有18行，每一行有512个元素，每个元素为实数，α为服从均匀分布的缩放系数，β为权重系数，控制源图像潜在编码和噪声之间的比重，设置于(0,1)之间，噪声z为512维的列向量，其中的每一个元素都服从标准正态分布；M为18维的掩码。

所述合成网络模块负责使用预训练的权重，输入潜在编码族，输出用于训练合成网络的数据集，其中：合成网络模块输出结果中的每一张图像和风格图像作为一对，所有的图像对作为微调训练集，用于训练合成网络，获得风格模型；

所述层调节模块负责粗略的进行粒度特征风格化程度控制，通过替换对应分辨率层中的权重和偏移量进行层调节，该模块的公式表示为：

P_res＝αP_base+(1-α)P_style

式中，P_res为生成图像，低分辨率4×4到32×32不做替换处理，由此r_swap＝4，P表示合成网络层中第r层，P_base表示作为替换的基础模型，基础模型保留第4及第四层以下的层，不进行替换，P_style提供替换层，α表示r层是否进行替换；

所述双模型间融合控制模块负责使用微调获得的风格模型和微调前的基础模型进行层权重缩放和推理路径组合，对粒度特征进行精细化控制，双模型间控制模块由层调节模块推广而来，为尽可能保留身份信息低分辨率层不参与双模型控制模块的操作，将Pre模型分辨率层中的ToRGB层和两个风格模块卷积权重及偏移量使用缩放系数α进行缩放，将Scaled Style模型中对应分辨率层中的ToRGB层和两个风格模块中的卷积权重及偏移量使用缩放系数1-α进行缩放，将两缩放结果相加，将相加后的结果作为ToRGB层和两个风格模块中的新卷积权重及偏移量，操作结束后得到新合成网络，用于生成风格肖像，该操作的公式表示如下：

P_pre＝αP_pre+(1-α)P_style

i＝r-4,r≤m

式中，m＝9，低分辨率4×4到32×32不做替换处理，由此r_swap＝4，N为参数n_i的集合，P_pre为使用FFHQ作为训练集的预训练模型，P_style模型为迁移学习得到的风格模型；

所述多模型间融合控制模块负责利用多个微调获得的风格模型，在多个模型间进行层权重缩放和权重线性组合，获得无参考图像对应的新风格化模型，多模型间融合控制模块由双模型间控制模块推广而来，将双模型间控制模块中操作后的一个分辨率层作为基本单元，对每个基本单元中的权重及偏移量使用对应的缩放系数进行缩放，然后将缩放后的结果相加得到新卷积权重及偏移量，新卷积权重及偏移量构成对应的分辨率层模块的参数，分辨率层构成合成网络，该模块的公式表示如下：

P_res＝x_r1P_cstyle1+x_r2P_cstyle2+...,+x_riP_cstylei+...

式中，低分辨率4×4到32×32保留源图像基本身份特征，不做处理，由此r_swap＝4，r表示第几层，n_ri为缩放系数，P_cstylei为提供生成层的第i个融合风格模型层集合，x_ri中的系数作用于对应的层上。

一种利用上述系统实现个性化肖像生成的方法，包括如下步骤：

步骤一、网络训练：

(1)预训练反演模块；

(2)预训练潜在编码混合模块中的风格映射网络和合成网络模块；

(3)将风格参考图像输入(1)中得到的反演模块，获得对应的潜在编码；

(4)将(3)中得到的潜在编码输入潜在编码混合模块，然后将潜在编码混合模块生成的潜在编码族输入(2)中预训练的合成网络模块，获得图像；

(5)从(4)中获得的图像族中每一张图像与源图像组成微调数据集对用于微调合成网络模块，获得训练好的风格模型；

步骤二、双模型间层替换或层融合的网络推理：

(1)将源图像输入反演模块，获得对应的潜在编码；

(2)对合成网络训练后，获得的风格模型与预训练的合成网络模块使用层调节模块(层替换)或双模型间层融合模块(层融合)，通过调节模型层推理路径实现层替换或调节双模型间层权重占比实现层融合，获得新的对不同粒度特征拥有不同程度风格化能力的新风格化模型；

(3)将(1)获得的潜在编码输入新风格化模型中，获得风格肖像。

步骤三、多模型间层替换或层融合的网络推理：

(1)将源图像输入反演模块，获得对应的潜在编码；

(2)对合成网络训练后，获得的多个风格模型与预训练的合成网络模块组成多对风格模型和预训练模型对，输入双模型间层融合模块，将模块输出结果模型中的每一层作为多模型间层融合模块的基本单元；

(3)对基本单元使用多模型间融合模块，获得无风格参考图像对应的新风格模型；

(4)将(1)获得的潜在编码输入新风格化模型中，获得风格肖像。

相比于现有技术，本发明具有如下优点：

本发明在保证源图像人脸身份信息的情况下，能够较好的对源图像进行风格化处理，生成风格化肖像。在上述基础上，能够实现对人脸不同粒度特征的风格化强度控制，实现融合的多风格模型风格化人脸源图像，实现根据已有风格模型在无风格参考图像制作个性化训练集的条件下生成新风格的风格化模型。

附图说明

图1为e4e反演模块；

图2为样式编码混合模块；

图3为合成网络网络简化结构；

图4为风格模块和ToRGB的详细结构；

图5为4x4分辨率层和8x8分辨率层的详细连接方式；

图6为层调节模块；

图7为双模型间层融合控制模块；

图8为多模型间融合基本层单元；

图9为多模型间融合模块；

图10为只进行双模型间层替换或层融合的网络推理过程；

图11为进行多模型间层替换或层融合的网络推理过程；

图12为进行单层替换的风格化肖像；

图13为进行多层替换的风格化肖像；

图14为源模型到风格模型过渡；

图15为风格模型到风格模型过渡；

图16为双模型融合结果；

图17为多模型间层融合；

图18为泛化能力展示。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明在使用自定义训练数据集的基础上，设计了一种基于生成对抗网络的个性化肖像生成系统，主要由六部分组成：(1)反演模块：获取位于预训练StyleGAN2潜在空间，对应于源图像和风格参考图像的潜在编码。(2)潜在编码混合模块：生成用于微调合成网络模块的潜在编码族。(3)合成网络模块：使用预训练的权重，输入潜在编码族，输出用于训练合成网络的数据集。(4)层调节模块：用于粗略的进行粒度特征风格化程度控制。(5)双模型间融合控制模块：使用微调获得的风格模型和微调前的基础模型进行层权重缩放和推理路径组合，对粒度特征进行精细化控制。(6)多模型间融合控制模块：利用多个微调获得的风格模型，在多个模型间进行层权重缩放和推理路径组合，获得无参考图像对应的新风格化模型。

1、反演模块

之前其他研究者们的工作，都是使用数据集获得单一的风格模型，灵活性较差，为了自制用于微调合成网络的数据集，需要使用潜在空间中的潜在向量。由于潜在空间中潜在向量的每一个维度都对应着不同的图像特征，通过对潜在向量的处理，可以控制生成图像的各种特征和属性。为了能够使用潜在向量的强大功能，需要将图像反演获得与图像对应的潜在向量。这一部分引入了e4e(Encoder 4 Encoder)，该模型框架是一种基于对称性的反演框架，图1展示了该框架的网络结构，网络结构主要由一个编码器、一个解码器和一些正则化约束组成。

该框架的工作原理：源图像输入到编码器中，输出一个潜在向量w及一组偏移量，该组偏移量的数量为N-1，N为风格调制层的数量。最终通过将潜在向量复制N次，将偏移量组中偏移加到指定调制层的潜在向量上，获得N个潜在向量作用于N个风格调制层。

该图像反演的公式表示为：

P_res＝G_pre(E_tra(P_ori)) (1)

式中，P_res和P_ori分别为生成图像和源图像，G_pre为预训练StyleGAN2生成器，E_tra为在预训练StyleGAN2生成器基础上训练的e4e反演器。

编码器采用的正则化约束可以帮助e4e确保生成的潜在向量能够有效地控制图像的样式，从而提高生成图像的质量和可编辑性。该框架的训练数据集采用FFHQ(Flickr-Faces-HQ)数据集，该数据集包含70000多张分辨率为1024×1024的真实人脸图片。数据集经过严格筛选和处理，没有明显的噪点和图像缺陷。数据集中包含了不同年龄、性别和表情的人脸图像，覆盖了各种不同的人脸特征。该高质量的数据集应用于该模型的训练，使得该反演框架的反演结果高质量的保留了源图像的特征和细节。

2、潜在编码混合模块

潜在代码混合模块如图2，主要分为两个分支，一个是风格分支，一个是噪声分支。图2中，将styleimage作为输入的是风格分支，将元素服从标准正态分布的512维列向量Z和origin image作为输入的是噪声分支。

在风格分支中，styleimage输入到反演模块，得到18行512列的w₂，1-α为缩放系数，mask为18维的掩码，此处在低维度掩码取0，高维度取1。通过缩放和掩码运算后，较低行的元素为0，较高行的元素为使用缩放系数缩放后的值。

在噪声分支中，将元素服从标准正态分布的512维列向量Z输入到Stylegan2中的风格映射网路中，输出的1行512列向量，复制18次，得到18行512列的w₀，使用缩放系数β，对w₀元素值进行缩放。originimage输入到反演模块，得到18行512列的w₁，使用缩放系数1-β对w₁元素值进行缩放。将w₀和w₁元素对应相加，得到的结果使用缩放系数α进行缩放，mask为18维的掩码，此处在低维度掩码取1，高维度取0。

最后，将两者组合成为18行512列的w，注意风格分支和噪声分支的mask需要进行维度对应，如在风格分支中，1到10行掩码取0，11到18行掩码取1。在噪声分支中，1到10行掩码取1，11到18行掩码取0。组合即为替换掉全0行。

潜在编码也可称为样式编码，样式编码混合模块主要用于生成混合样式编码，将混合样式编码送入预训练的合成网络模块，生成的图片和参考图片一同作为训练数据集对，用于微调合成网络模块。结构如图2所示。Z是一个512维的列向量，其中的元素服从标准正态分布，将该列向量输入StyleGAN2的风格映射网络，将该列向量映射到样式编码所在的潜在空间。该风格映射网络由一层像素归一化层和八层全连接层组成。

将源图像通过e4e反演模块反演，获得源图像在潜在空间中的样式编码，将上述编码分别乘上权重求和，共同作为样式编码混合中的噪声部分，即保证了多样性，也保有了需要风格化源图像的部分身份信息。

风格参考图像通过e4e反演模块反演，获得潜在空间的样式编码，和噪声部分进行掩码加权求和操作。掩码M是一个18维的列向量，元素取值是0或1。基于StyleGAN中样式编码在不同的维度控制不同的特征的性质，利用掩码来控制数据集中风格化特征的分布，达到个性化数据集的作用。

e4e反演模块使用FFHQ数据集训练的StyleGAN2合成网络作为解码器，保证了e4e的反演结果和由FFHQ数据集训练的StyleGAN2风格映射网络映射结果在服从类似分布的潜在空间中，确保服从标准正态分布的列向量Z通过风格映射网络得到的列向量和由源图像及风格图像反演的列向量位于同一潜在空间，使三者线性组合有效。

该模块的公式表示如下式：

w＝(1-α)M·w₂+α(I-M)·(βFC(z)+(1-β)w₁) (2)

式中，样式代码w,w_i∈R^18×512,i＝1,2，表示用于输入合成网络的风格向量，R^18×512表示每个w有18行，每一行有512个元素，每个元素为实数，随机标量值α～U(0,1)，α为服从均匀分布的缩放系数，β为缩放系数，控制源图像潜在编码和噪声之间的比重，设置于(0,1)之间，随机噪声z～N(0,I)，噪声z为512维的列向量，其中的每一个元素都服从标准正态分布，M为18维的掩码。

通过调整源图像和通过映射网络映射的Z向量间的权重，调整噪声的强度，通过调整噪声部分与参考风格图像反演结果的权重，控制生成微调数据集中图像风格编码中风格和噪声的构成。

3、合成网络模块

合成网络模块引入StyleGAN2的生成网络模块，该模块的输入由三部分组成，第一部分是位于模型头部的常量输入，第二部分是风格向量，输入到每个分辨率生成模块的两个风格模块中。第三部分是噪声，同样输入到每个分辨率层生成模块的两个风格模块中。常量输入用于控制全局特征，如整体亮度和整体颜色偏移。风格向量制合成网络模块不同分辨率层级生成模块的输出，控制生成图像的不同特征和样式，在人脸生成任务中负责人脸各种粒度的特征生成。噪声作为模型输入的随机信号，用于增加模型的多样性和细节，可以控制生成图像的细节和纹理，在人脸生成任务中，负责控制皮肤的纹理和头发发梢等细节。该网络的简化结构如图3所示。

合成网络模块由9层组成，第一层为4×4分辨率层，仅由一个风格模块和一个ToRGB层组成，其余分辨率层均由一个上采样层和一个生成模块组成。上采样层用于增加图像分辨率，处理跨层链接。生成模块接收上一层生成的特征图，同时接收两个样式编码和两噪声向量，生成该分辨率的特征图。生成模块由两个风格模块和一个ToRGB层组成。

图4为风格模块的详细结构和ToRGB的详细结构。

在风格模块中包含一个3×3的卷积和调制解调操作。调制modulation，对应于详细结构图中的Mod层，解调demodulation对应于图中的Demod层。样式代码w通过全连接层A输入到风格模块中，噪声通过广播和缩放操作B进入到风格模块中。

调制操作：基于输入的样式编码，对卷积的每个输入特征图的尺度进行调整，可以通过对卷积权重的尺度进行处理等效的实现该过程。使用卷积层的权重张量与输入的样式代码进行矩阵相乘，然后通过带偏置的激活函数运算生成本分辨率层级控制样式的尺度s，样式尺度与原始的权重相乘得到调制后的权重。公式表示如下：

ω_i′＝s_i·ω_i (3)

式中，ω为原始权重，ω′为调制后权重，s_i是对应于i×i分辨率层级输入特征图的尺度。

解调操作：假设调制前权重是独立同分布的随机变量，标准差为单位标准差。在完成调制和卷积操作后，卷积调制权重的标准差为：

输出的尺度用对应权重的L₂范式进行调整，随后的归一化操作，其目的是将输出复原到单位标准差，基于公式(4)，可以通过使用调制后的卷积权重乘以1/σ来实现。

式中，ω_i′为调制后，归一化前的卷积层权重，ω″为归一化后的卷积层权重，ε是一个很小的常数，避免被除数为0的数值问题。

调制、卷积、解调后，卷积产生的结果与偏置和噪声输入相加得到该风格模块的输出，该输出进入下一个模块。

在ToRGB层中，包含一个1×1卷积的调制操作，其余部分与风格模块相似。

为了在每一分辨率层中都使用ToRGB模块生成特征图对应的RGB图像，每一层输出的RGB图像被放大和相加，最后得到最终RGB图像。图5详细描述了合成网络模块的4×4分辨率层和8×8分辨率层的连接方式，8×8分辨率层以后的分辨率层和8×8分辨率层结构相同，已知分辨率层结构和层间连接方式，可推理出后续分辨率层的结构及后续分辨率层之间的连接方式。

4、层调节模块

层调节模块通过替换对应分辨率层中的权重和偏移量进行层调节。如图3，每一分辨率层如512×512分辨率层，其中包含一个上采样层和两个风格模块及一个ToRGB层，层调节模块如图6所示，将Pre模型分辨率层中的ToRGB层和两个风格模块(详细结构如图4)卷积权重weights及偏移量bias替换为ScaledStyle模型中对应分辨率层中的ToRGB层和两个风格模块中的卷积权重weights及偏移量bias。由于每一分辨率层控制不同粒度的人脸特征生成，达到粗略粒度特征风格化程度控制的目的。同时由于低分辨率层(32×32以下包含32×32分辨率层)较大的影响身份信息，不进行层替换操作。

合成网络模块中，每一层负责生成不同粒度的特征，可通过对相应维度的样式编码进行插值，改变输出的结果。但只是改变输入的样式编码，仅仅只是在同一个训练模型下生成不同的图像，生成的结果仅仅停留在同一个图像域中。如图6所示，直接对模型进行层权重的替换，即使输入的是相同的样式编码，也会产生在不同粒度特征上的多样性表现。相比于固定每一层的可学习权重参数，训练其他层来获得不同的生成模型，直接对模型中的模块权重替换，实现的难度更简单，不需要为固定不同层的参数而获得的生成模型，进行多次训练，减少计算资源的消耗。

负责处理分辨率4×4到8×8的生成模块，控制生成人脸的大致轮廓，保证眼睛和嘴巴生成到恰当的位置，处理分辨率16×16到32×32的生成模块，控制人脸上的眉毛、鼻子、瞳孔等细节的生成。在分辨率64×64到1024×1024的生成模块上，控制皮肤的纹理特征、瞳孔的位置偏移和人脸主要特征相关的颜色。风格化人脸肖像生成最基本的要求是，生成的肖像具备输入源图像的身份信息，为满足该项基本要求，在低维度的生成模块，处理4×4到32×32分辨率的生成模块上不进行权重替换。通过对较高维度的生成模块的权重缩放，快速获取不同的生成模型。

该替换方法不仅可以获得大量多样性的生成结果，也可体现为更细致的粒度特征风格化控制，在一张肖像不同维度的特征上选择是否进行风格化处理，该方法的灵活性得到一定的保证，提供多样性的风格组合选择。

该方法的公式表示为：

P_res＝αP_base+(1-α)P_style (6)

式中，参数取值如下：该算法的最终图片分辨率为1024×1024，由此n＝9，低分辨率4×4到32×32不做替换处理，由此r_swap＝4。P表示合成网络层中第r层，P_base表示作为替换的基础模型，基础模型保留第4及第四层以下的层，不进行替换，P_style提供替换层，由于缩放系数α取值为0或1，也可以理解为α表示r层是否进行替换。

5、损失函数

由于整体算法框架有多个模块，不同的模块应用了不同的损失函数进行训练。

在反演模块中，反演模块的损失函数主要由两部分组成，一部分为失真损失，一部分为感知质量和可编辑性损失。

在失真损失部分，为了能够准确的反演面部保留输入面部图像的身份信息，确保低失真，使用了psp的身份信息损失函数，LPIPS感知度量，L2正则化。

身份信息损失(identityloss)用于确保生成器生成的样本在视觉上保持与输入样本的身份信息一致，其公式表达如下：

L_ID(x)＝1-<R(x),R(G(e4e(x)))> (8)

式中，R是预训练好的用于人脸识别的ArcFace网络，x为输入图片，G(e4e(x))表示将输入图片x通过e4e反演，再将反演得到的样式编码输入预训练好的StyleGAN2生成器中，得到生成的图像，将两幅图像重塑为112×112的尺寸，再送入R，计算两结果的cosine相似度。

LPIPS感知度量：

L_LPIPS(x)＝||F(x)-F(G(e4e(x)))||₂ (9)

式中，F为感知特征提取器，x为输入图像，G(e4e(x))和身份信息损失中描述相同，是预训练好的StyleGAN2生成器。

L2正则化在模型的训练过程中，鼓励模型权重参数取较小的值。通过L2正则化后，模型的权重参数被约束在一个较小的范围内，有助于提高模型的泛化能力，使模型在未见过的数据上有更好的表现，降低了模型过拟合的风险。由于L2正则化控制了模型的复杂度，避免了模型对训练数据中的噪声或异常值过于敏感，使模型能够稳定训练。

式中，E_in是未包含正则化项的训练样本误差，λ是可调的正则化参数，ω_j是模型的参数，j表示模型中的第j个权重参数。

L_dist(x)＝λ_l2L₂(x)+λ_lpipsL_LPIPS(x)+λ_IDL_ID(x) (11)

上式为失真损失，失真损失由L_ID(x)、L_LPIPS(x)、L_ID(x)与对应的参数构成。

在感知质量和可编辑性损失部分，使用了两种正则化项：L_d-reg(x)和L_adv(x)。

正则化项L_d-reg(x)控制潜在向量中不同维度之间的差异，保证潜在向量的平滑性和一致性。

式中，Δ_i为相对于反演产生的单一样式编码w的偏移量，N＝18表示控制StyleGAN生成图像的样式编码数量。

正则项L_adv(x)用于限制潜在向量的范围，使其尽可能接近StyleGAN的潜在空间。

式中，D_W为潜在编码鉴别器，鉴别器的使用了非饱和GAN损失和R₁正则化，通过对真实样本x～pX(由StyleGAN映射网络生成W空间中的样式编码)和编码器学习的样式编码w进行对抗训练来鉴别，鼓励编码器生成的样式编码位于W空间中，编码器使用/>进行训练。

L_edit(x)＝λ_d-regL_d-reg(x)+λ_advL_adv(x) (15)

上式为感知质量和可编辑性损失，损失由L_d-reg(x)、L_adv(x)与对应的参数构成。

反演模块的整体损失为：

L(x)＝L_dist(x)+λ_editL_edit(x) (16)

在合成网络模块中，合成网络是StyleGAN2的生成器部分，在StyleGAN2训练过程中，判别器使用了非饱和GAN损失和R₁正则化，生成器使用了ppl正则化，ppl正则化主要为了保证模型在输入空间尽可能平滑，提高解耦能力。

式中，y是具有正态分布像素强度的随机图像，w～f(z)，z服从正态分布，f为映射网络，w～W，W为样式编码所在空间，Y为真实图像所在空间，生成器映射g(w):W→Y的局部度量比例缩放属性由雅可比矩阵捕获，常数a在优化过程中动态设置为长度的长期指数移动平均值。

在微调合成网络的过程中使用了LPIPS感知度量。

6、双模型间层融合控制模块

双模型间控制模块由层调节模块推广而来，如图7所示，为尽可能保留身份信息低分辨率层(32×32以下包含32×32分辨率层)不参与双模型控制模块的操作，将Pre模型分辨率层中的ToRGB层和两个风格模块(详细结构如图4)卷积权重weights及偏移量bias使用缩放系数α表示r层是否进行替换进行缩放，将ScaledStyle模型中对应分辨率层中的ToRGB层和两个风格模块中的卷积权重weights及偏移量bias使用缩放系数1-α进行缩放，将两缩放结果相加，将相加后的结果作为ToRGB层和两个风格模块中的新卷积权重weights及偏移量bias。操作结束后得到新合成网络，用于生成风格肖像。

前文中源模型和风格模型直接的层替换，风格变化跨度较大，以源模型为基础模型，风格模型提供层替换，与风格模型作为基础模型，源模型作为层替换时，层替换后的模型产生的肖像结果差异很大，推测通过对层中控制风格化的调制卷积权重进行缩放，可能会使风格化程度随权重缩放值的变化而变化，但实验结果表明，简单的在替换后对层中卷积权重进行缩放无法获得较好的结果，对最后两层的缩放，会导致图像全局颜色大跨度变化。对五六七层的权重缩放生成的肖像结果并未有较大变化。该操作的公式表示如下：

P_pre＝αP_pre+(1-α)P_style (18)

i＝r-4,r≤m (20)

式中，参数取值如下：该算法的最终图片分辨率为1024×1024，由此m＝9，低分辨率4×4到32×32不做替换处理，由此r_swap＝4，N为参数n_i的集合。P_pre为使用FFHQ作为训练集的预训练模型，P_style模型为迁移学习得到的风格模型。

该权重过度方案将会更自然的进行风格化控制，不仅能够控制风格在源图像在脸部特征和图像颜色及皮肤纹理的表现，同时还能够根据权重的占比控制身份信息的保留程度，在部分应用场景中既保留了用户的个性化需求，也保护了用户身份信息不过多披露。

7、多模型间融合控制模块

将双模型参数层融合得到的风格融合层整体作为多模型间层融合的基本单元，如图8所示，多模型间融合基本层单元由源模型层、风格模型层及相应权重系数构成。

基本层单元作为多模型间融合架构的基本组成单元，多模型间融合模块作为双模型层融合模块的推广，使合成的风格不仅仅停留在对不同粒度特征的风格化控制上，能够生成不同于提供替换层的风格域的新风格域，同时可以通过对不同融合替换层权重的缩放，控制不同风格在生成图像中的表现，可以以很低的计算资源消耗获得大量多样的新风格化网络。在部署上也极具优势，不需要大量的数据集，不需要大量的训练时间，可以多模型并行训练，通过多模型间层融合获得完全不同于风格参考图像的全新风格。多模型间融合模块框架如图9所示，该模块由双模型间控制模块推广而来，将双模型间控制模块中操作后的一个分辨率层作为基本单元，如图8所示。图9中对每个基本单元中的权重weights及偏移量bias使用对应的缩放系数进行缩放，然后将缩放后的结果相加得到新卷积权重weights及偏移量bias。新卷积权重weights及偏移量bias构成对应的分辨率层模块的参数，分辨率层构成合成网络。

该模块的公式表示如下：

P_res＝x_r1P_cstyle1+x_r2P_cstyle2+...,+x_riP_cstylei+...(22)

式中，参数取值如下：低分辨率4×4到32×32保留源图像基本身份特征，不做处理，由此r_swap＝4。r表示第几层，n_ri为缩放系数，P_cstylei为提供生成层的第i个融合风格模型层集合，x_ri中的系数作用于对应的层上。

本发明中，网络训练分为以下四个部分分别进行训练：

(1)预训练反演模块。

(2)预训练潜在编码混合模块中的风格映射网络和合成网络模块(两模块组合进行训练)。

(3)将风格参考图像输入(1)中得到的反演模块，获得对应的潜在编码

(4)将(3)中得到的潜在编码输入潜在编码混合模块，然后将该模块生成的潜在编码族输入(2)中预训练的合成网络模块，获得图像。

(5)从(4)中获得的图像族中每一张图像与源图像组成微调数据集对用于微调合成网络模块，获得训练好的风格模型。

本发明中，网络推理过程有两种：

1、只进行双模型间层替换或层融合的网络推理过程，如图10所示，分为以下几个部分：

(1)将源图像输入反演模块，获得对应的潜在编码；

(2)对网络训练后，获得的风格模型与预训练的合成网络模块使用层调节模块(层替换)或双模型间层融合模块(层融合)，通过调节模型层推理路径实现层替换或调节双模型间层权重占比实现层融合，获得新的对不同粒度特征拥有不同程度风格化能力的新风格化模型。

2、进行多模型间层替换或层融合的网络推理过程，如图11所示，分为以下几个部分：

(1)将源图像输入反演模块，获得对应的潜在编码；

(2)对网络训练后，获得的多个风格模型与预训练的合成网络模块组成多对风格模型和预训练模型对，输入双模型间层融合模块，将模块输出结果模型中的每一层作为多模型间层融合模块的基本单元。

(3)对基本单元使用多模型间融合模块，获得无风格参考图像对应的新风格模型

图像结果：

(1)在层调节模块使用单层替换。

图12中每一行为一组实验，左列为作为层替换基础的模型代表图像，第一行和第三行为使用FFHQ预训练得到的模型作为基础模型，风格化模型提供替换层。第二行和第四行为风格化得到的模型作为基础模型，FFHQ预训练得到的模型提供替换层。从左到右进行单层替换，从第5层开始替换，替换到第9层结束。第一列为基础模型图像示例。

从实验结果表明，FFHQ预训练模型作为基础模型时(第一行和第三行的实验结果)，第5层替换会较明显的改变人脸的部分特征，如眼睛的大小、鼻子的形状，但由于低层级未进行替换，肖像的身份信息基本不受影响，但在基础模型为FFHQ预训练模型时，单层的替换无法保留风格参考图像的颜色信息，但能保有风格图像中人物的眼睛和鼻子等特征，可作为改变特征而不改变颜色的风格生成模型。在第8和第9层替换中仅有图像的整体颜色和皮肤纹理有所改变，脸部特征和源图像基本一致。第6和第7层效果较佳，既保有了源图像的肤色和纹理特征，还捕获了参考风格图像中的鼻子、眼睛等特征，具有较好的生成效果。

结果图像中，以风格化模型为基础模型时，和前段分析结果类似，第5层的替换，使人物的眼睛大小、鼻子形状得到了较好的保留，未替换的层捕获图像风格，迁移到源图像上，获得较好的风格化结果。第6层风格参考图像的鼻子和眼睛等中粒度的特征影响了由源图像生成的肖像，但源图像的身份特征未有较大偏移，后续层的替换主要体现在图像颜色和皮肤纹理上，没有较大差异。

(2)在层调节模块使用多层替换。

如图13所示，以单层替换实验为基础，最左侧为基础模型代表图像，源图像所在行为FFHQ预训练的源模型为基础模型，风格模型提供替换层，最左侧为风格图像时，风格模型作为基础模型，源模型提供替换层，替换层从左到右分别为第九层，第八九层，第七八九层，第六七八九层，实验结果规律与单层替换规律近似，体现出不同风格化粒度特征的良好组合性。

(3)在风格模型和人脸生成模型间层权重线性组合融合结果。

图14中，最左侧为风格参考图像，此外每一行为风格模型权重占比线性增加后，生成图像结果，该实验中对相同模型中所有层采用相同的权重，第二列图像开始从左至右，FFHQ预训练模型权重依次为0.9、0.7、0.5、0.3、0.1，风格模型的权重为0.1、0.3、0.5、0.7、0.9。风格模型本身是由FFHQ预训练模型迁移学习获得，该实验的结果展现了双模型间层融合控制模块能够通过权重的线性变化控制图像风格化程度，与控制学习率获得不同风格程度的模型具有相近的结果。但使用该模块，所需的计算资源和消耗的时间远小于再一次训练生成风格模型的时间。通过简单的权重缩放组合处理，使得风格平滑的过渡，实现了由真实图像域快速跳转到不同风格化程度风格图像域的目标。

(4)在双风格模型间层权重线性组合融合结果。

图15中，最左侧的两张风格图片为风格参考图像代表由风格图片训练获得的风格化模型，该图中展示的是两不同风格模型间的过渡，参数设置和实验结果(3)相同。没有源模型参与风格程度调节，仅有风格模型进行混合效果不太使人满意，两种风格在生成的肖像上均有体现。但风格化强度控制还需要FFHQ预训练模型作为基础模型，风格模型层混合后再使用FFHQ预训练模型作为基础模型，保证源图像的主要人脸特征在不影响身份信息的情况下进行可强度控制的风格化。该实验引出了多模型间层融合模块。

(5)在双模型间层融合结果。

融合结果如图16所示，最左列为风格参考图像，第一行为源图像，每行为对应于最左列风格图像的风格化结果，该风格化结果以FFHQ预训练模型作为基础模型，以左列风格参考图像训练的风格模型提供风格层，FFHQ预训练模型权重设置为[0.8,0.5,0.5,0.5,0.5]，风格模型的权重设置为[0.2,0.5,0.5,0.5,0.5]，该双模型间层融合控制模块展示了强大的风格程度控制能力。简单调节参数，便可获得漂亮的风格肖像。权重数组中的各参数对图像风格化影响和单层替换的实验结果类似，相比于层替换风格化的结果更自然，风格程度控制更平滑。风格捕捉效果较好，源图像中的确定人物身份的特征得到了较为充分保留，身份信息几乎没有丢失。该融合结果展示了算法的优秀泛化能力，对不同的源图像都有良好的风格化能力。

(6)在多模型间层融合结果。

使用多模型间层融合模块将多种风格在融合在风格肖像上，在图17中，ori表示待风格化的源图像，ref1和ref2表示风格参考图像，style0表示FFHQ预训练的模型，style1，style2表示由风格参考图像ref1，ref2训练的风格模型，res为style0，style1，style2模型使用层融合模块组合生成的新风格模型对ori源图像进行风格化产生的结果。

多风格模型通过层融合模块产生的新风格风格模型在不同的源图像作为输入时，具有良好的泛化能力，如图18所示。

Claims

1.一种基于生成对抗网络的个性化肖像生成系统，其特征在于所述个性化肖像生成系统包括反演模块、潜在编码混合模块、合成网络模块、层调节模块、双模型间融合控制模块和多模型间融合控制模块，其中：

所述潜在编码混合模块负责生成用于微调合成网络模块的潜在编码族；

所述合成网络模块负责使用预训练的权重，输入潜在编码族，输出用于训练合成网络的数据集；

所述层调节模块负责粗略的进行粒度特征风格化程度控制，通过替换对应分辨率层中的权重和偏移量进行层调节；

所述双模型间融合控制模块负责使用微调获得的风格模型和微调前的基础模型进行层权重缩放和推理路径组合，对粒度特征进行精细化控制；

所述多模型间融合控制模块负责利用多个微调获得的风格模型，在多个模型间进行层权重缩放和权重线性组合，获得无参考图像对应的新风格化模型。

2.根据权利要求1所述的基于生成对抗网络的个性化肖像生成系统，其特征在于所述潜在编码混合模块分为两个分支，一个是风格分支，一个是噪声分支，风格分支将styleimage作为输入，噪声分支将元素服从标准正态分布的512维列向量Z和originimage作为输入，模块的公式表示如下：

w＝(1-α)M·w₂+α(I-M)·(βFC(z)+(1-β)w₁)

式中，潜在代码w,w_i∈R^18×512,i＝1,2，表示用于输入合成网络的风格向量，R^18×512表示每个w有18行，每一行有512个元素，每个元素为实数，α为服从均匀分布的缩放系数，β为缩放系数，控制源图像潜在编码和噪声之间的比重，设置于(0,1)之间，噪声z为512维的列向量，其中的每一个元素都服从标准正态分布，M为18维的掩码。

3.根据权利要求1所述的基于生成对抗网络的个性化肖像生成系统，其特征在于所述合成网络模块输出结果中的每一张图像和风格图像作为一对，所有的图像对作为微调训练集，用于训练合成网络，获得风格模型。

4.根据权利要求1所述的基于生成对抗网络的个性化肖像生成系统，其特征在于所述层调节模块的公式表示为：

P_res＝αP_base+(1-α)P_style

式中，P_res为生成图像，低分辨率4×4到32×32不做替换处理，由此r_swap＝4，P表示合成网络层中第r层，P_base表示作为替换的基础模型，基础模型保留第4及第四层以下的层，不进行替换，P_style提供替换层，α表示r层是否进行替换。

5.根据权利要求1所述的基于生成对抗网络的个性化肖像生成系统，其特征在于所述双模型间控制模块由层调节模块推广而来，为尽可能保留身份信息低分辨率层不参与双模型控制模块的操作，将Pre模型分辨率层中的ToRGB层和两个风格模块卷积权重及偏移量使用缩放系数α进行缩放，将ScaledStyle模型中对应分辨率层中的ToRGB层和两个风格模块中的卷积权重及偏移量使用缩放系数1-α进行缩放，将两缩放结果相加，将相加后的结果作为ToRGB层和两个风格模块中的新卷积权重及偏移量，操作结束后得到新合成网络，用于生成风格肖像，该操作的公式表示如下：

P_pre＝αP_pre+(1-α)P_style

i＝r-4,r≤m

式中，m＝9，低分辨率4×4到32×32不做替换处理，由此r_swap＝4，N为参数n_i的集合，P_pre为使用FFHQ作为训练集的预训练模型，P_style模型为迁移学习得到的风格模型。

6.根据权利要求1所述的基于生成对抗网络的个性化肖像生成系统，其特征在于所述多模型间融合控制模块由双模型间控制模块推广而来，将双模型间控制模块中操作后的一个分辨率层作为基本单元，对每个基本单元中的权重及偏移量使用对应的缩放系数进行缩放，然后将缩放后的结果相加得到新卷积权重及偏移量，新卷积权重及偏移量构成对应的分辨率层模块的参数，分辨率层构成合成网络，该模块的公式表示如下：

P_res＝x_r1P_cstyle1+x_r2P_cstyle2+...,+x_riP_cstylei+...

7.一种利用权利要求1-6任一项所述个性化肖像生成系统实现个性化肖像生成的方法，其特征在于所述方法包括如下步骤：

步骤一、网络训练：

(1)预训练反演模块；

步骤二、双模型间层替换或层融合的网络推理：

(1)将源图像输入反演模块，获得对应的潜在编码；

(2)对合成网络训练后，获得的风格模型与预训练的合成网络模块使用层调节模块或双模型间层融合模块，通过调节模型层推理路径实现层替换或调节双模型间层权重占比实现层融合，获得新的对不同粒度特征拥有不同程度风格化能力的新风格化模型；

8.一种利用权利要求1-6任一项所述个性化肖像生成系统实现个性化肖像生成的方法，其特征在于所述方法包括如下步骤：

步骤一、网络训练：

(1)预训练反演模块；

步骤二、多模型间层替换或层融合的网络推理：

(1)将源图像输入反演模块，获得对应的潜在编码；