CN114663275B

CN114663275B - 一种基于风格对抗生成网络stylegan2的脸谱图像生成方法

Info

Publication number: CN114663275B
Application number: CN202210338393.1A
Authority: CN
Inventors: 王小凤; 闫鹏飞; 周明全; 何思远; 周蓬勃; 李展; 刘阳洋
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2024-03-15
Anticipated expiration: 2042-04-01
Also published as: CN114663275A

Abstract

本发明公开了一种基于风格对抗生成网络stylegan2的脸谱图像生成方法，包括如下步骤：步骤1，对脸谱图像数据集进行预处理；步骤2，改进风格对抗生成网络stylegan2；步骤3，向改进后的风格对抗生成网络stylegan2导入数据集；步骤4，训练改进后的风格对抗生成网络stylegan2得到新脸谱：通过操作镜像模块不断微调每次迭代后的生成脸谱图像参数，在网络过拟合前不断观察，随着FID值不断下降并稳定下来，最后停止训练并挑出图像质量较好的阶段的参数，输入生成器进行图像生成，得到最终的新脸谱。本方法实现了基于风格对抗生成网络stylegan2的脸谱图像生成，操作方便，提高了脸谱图像生成的质量和精度。

Description

一种基于风格对抗生成网络stylegan2的脸谱图像生成方法

技术领域

本发明涉及计算机图像处理技术，具体涉及一种基于风格对抗生成网络stylegan2的脸谱图像生成方法。

背景技术

秦腔脸谱，是中国秦腔戏曲艺术的重要构成部分，多年来一直形成并保持了自身的一套完整体系。秦腔古装戏中的“花脸”脸谱有不同的类型，在色彩与构象上有独特的讲究，并且异彩纷呈，风格各异，构想奇特，是非常宝贵的非物质文化遗产。秦腔脸谱是舞台化妆的特殊手段，它能标注出戏曲舞台人物的面貌、性格、身份和年龄等，并具有辅助表演、夸张人物的功效，可以分善恶、辩忠奸，美化舞台人物，增强观众的审美观。每一个脸谱渗透着西北乃至中国民众生活中的忠孝礼仪，喜怒哀乐，以及忠奸英烈的文化内涵，表达了不同的性格特点。国内目前的研究主要集中戏曲的新形态演绎、全息展示、人机互动等方面，在京剧脸谱人文分析研究也有，但鲜有针对脸谱识别和生成相关工作，尚处于起步阶段。现有在脸谱生成技术中，存在生成脸谱不美观、脸谱纹路线条不流畅、不像脸谱、特征不明显、轮廓不整齐的问题。亟需针对大量脸谱图像的智能分析方法研究，以支撑对戏曲文化传承保护和戏曲文化艺术风格的研究。建立自成体系、具有自主产权、符合中国传统文化特色的戏曲脸谱保护技术和系统，对促进非物质文化遗产数字化保护，以及我国的文物事业、文化产业和精神文明的发展都显得十分重要。

现有的秦腔脸谱数量有限，而脸谱文化意义重大。目前使用生成对抗网络(Generative Adversarial Networks，GAN)生成或合成人脸是热门研究领域，因此本申请利用其思想进行文化创新—新脸谱生成。脸谱生成可以用已有脸谱生成新的脸谱，并可用于真实人脸的戏曲角色生成，也可以用于卡通角色生成，具有极其重要的理论意义和现实意义。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于风格对抗生成网络stylegan2的脸谱图像生成方法，以解决现有技术中脸谱生成图像线条不流畅不美观、不像脸谱的问题。

为了实现上述目的，本发明采用以下技术方案予以实现：

一种基于风格对抗生成网络stylegan2的脸谱图像生成方法，包括如下步骤：

步骤1，对脸谱图像数据集进行预处理：统一图片格式和分辨率，然后对齐五官图层和图样层使其眼距、眼鼻距和鼻嘴距尺寸统一，去除背景噪声并全部换为白色背景；

步骤2，改进风格对抗生成网络stylegan2：将生成器和判别器的学习率修改为1e-3，R1正则化的gamma值改为12，启用网络中的ada选项来对原始训练集做数据增强，以及使用bcR模块来防止生成器学到数据增强后的特征并保证之后的训练集潜向量不被干扰；最后在生成器中的合成网络结构加入镜像层；

步骤3，向改进后的风格对抗生成网络stylegan2导入数据集：首先将脸谱图像数据集转换成stylegan2可用的数据集格式，并将其作为训练集导入改进后的风格对抗生成网络stylegan2，并对训练集进行数据增强；

步骤4，训练改进后的风格对抗生成网络stylegan2得到新脸谱：通过操作镜像模块不断微调每次迭代后的生成脸谱图像参数，在网络过拟合前不断观察，随着FID值不断下降并稳定下来，最后停止训练并挑出图像质量较好的阶段的参数，输入生成器进行图像生成，得到最终的新脸谱。

进一步地，所述步骤1中脸谱图像数据集为512*512的长宽相等的图像。

进一步地，经所述步骤2改进后的风格对抗生成网络stylegan2的工作原理为：图像数据集的潜向量z经过归一化后进入由8个全连接层构成的映射网络进行非线性变换，用来解开特征向量z的特征纠缠，使得可以空间映射到表达更深层图像特征的潜向量空间W上；合成网络中初始为一个4*4*512的常量矩阵，通过图片上采样和卷积核操作逐步提高分辨率，最终达到3*1024*1024的值；每次上采样之前利用风格隐向量对每个归一化空间特征图执行缩放操作和偏置操作；之后计算每一层的风格值对(y_(s,i),y_(b,i))作为ω的缩放值和偏置值，从而能将风格特征表现在空间特征图中。

进一步地，所述步骤4训练改进后的风格对抗生成网络stylegan2得到新脸谱的具体过程为：图像训练集首先进入映射网络，映射网络由8个全连接层构成，通过一系列仿射变换，由隐向量z变为隐向量ω，ω转换为风格y，

y＝(y_(s,i),y_(b.i))

其中，y(s,i)和y(b,i)是隐向量ω经过仿射变换得到的每一层归一化所需要的scale和shift，两者对应的个数和每一层feature map的channel数相同；i为训练数据的标识数；

结合AdaIN风格变换方法：

这里y(s,i)和y(b,i)分别表示风格图特征的标准差和均值；μ(x_i)和δ(x_i)分别表示内容图特征的均值和标准差；

然后训练集进入合成网络，给每一层子网络都输入由ω转换得到的仿射变换和转换后的随机噪声，卷积层根据输入的ω转换得到的仿射变换来调整风格，设置一次迭代判别器学习的生成样本数量，每次迭代后使生成样本进入镜像层进行线性变换，公式为：

设表示特定对称轴的向量，则a为(x,y)^T，通过上式求线性变换φ对应的矩阵为：

根据A计算特征多项式f_λ＝λ²-T_r(A)λ+det(A)，由和得a^T为(v,-u)或(u,v)；

则A的特征向量为注意到/>故/>又det(A)＝-1,则从而/>是以/>为对称轴的对称变换；若以/>为另一组正交基，则/>的矩阵为然后图像进行上采样；随着FID值不断下降并稳定下来，在网络过拟合前停止训练并挑出图像质量较好阶段的参数，输入生成器进行图像生成；

其中，Tr表示矩阵对角线上元素的总和，μ为均值，σ为协方差，x表示真实的图片，g是生成的图片，FID代表两个图片相近程度。

本发明与现有技术相比，具有如下技术效果：

本发明首先对脸谱图像数据集进行预处理，统一图片格式和分辨率，然后对齐五官图层和图样层使其眼距，眼鼻距等尺寸统一，将背景的噪声去除且全部换为白色背景。之后将脸谱数据集转换成stylegan2可用的数据集格式，作为训练集导入改进后的stylegan2网络中进行训练。调整训练相关的参数，以及生成器和判别器的参数，并对训练集进行数据增强。经过两部分结构，第一部分是映射网络，首先进行数据增强，且将图像的特征隐向量z生成中间隐藏向量ω，然后进入合成网络，融合样本的风格和内容，镜像操作不断微调每次迭代后的生成样本，当FID(Frechet Inception Distance score，计算真实图像和生成图像的特征向量之间距离的一种度量)足够小时，即网络开始过拟合前，停止训练并取出置信度评分较高的图像模型参数，输入生成器进行图像生成。本方法实现了基于风格对抗生成网络(stylegan2)的脸谱图像生成，操作方便，提高了脸谱图像生成的质量和精度。

附图说明

图1为本发明实施例中改进后的风格对抗生成网络stylegan2得结构示意图；

图2为统一分辨率和尺寸后的70张脸谱图片；

图3为改进前的风格对抗生成网络stylegan2生成的部分脸谱效果图；

图4为本发明实施例最终生成的部分脸谱效果图；

图5为与最终生成图像特征相似的原数据集脸谱图。

具体实施方式

以下结合实施例对本发明的具体内容做进一步详细解释说明。

参照图1-5，本实施例提供一种基于风格对抗生成网络stylegan2的脸谱图像生成方法，包括如下步骤：

步骤1，对脸谱图像数据集进行预处理：统一图片格式和分辨率，固定为长宽相等(512*512)，然后对齐五官图层和图样层使其眼距、眼鼻距等尺寸统一，将背景的噪声去除且全部换为白色背景；预处理之后的图像参见图2；

步骤2，改进风格对抗生成网络stylegan2；如图1所示，具体为：

1)微调生成器和判别器的网络结构参数，由于训练集较小，将生成器和判别器的学习率修改为1e-3来减缓过拟合的速度，R1正则化的gamma值改为12，从而提高对真实样本的梯度惩罚；启用网络中的ada(自适应数据增强)选项来对原始训练集做数据增强(xflip＝1,rotate90＝1,xint＝1,scale＝1,rotate＝1,aniso＝1,xfrac＝1,brightness＝1,contrast＝1,lumaflip＝1,hue＝1,saturation＝1)以及bcR模块来防止生成器学到数据增强后的特征并保证之后的训练集潜向量不被干扰；

2)在生成器中的合成网络(synthesis network)结构加入镜像层，在每次图像上采样之前进行镜像操作；公式为：

改进后的对抗生成网络结构依次包括输入编码器、归一化层、全连接感知层、噪声输入、第一卷积层、风格隐向量输入、第一AdaIN层、噪声输入、第二卷积层、风格隐向量输入、第二AdaIN层、镜像层和上采样层。

生成器和判别器最终的损失函数分别为：

Loss_G＝log(exp(-D(G(z)))+1)

Loss_D＝log(exp(D(G(z)))+1)+log(exp(-D(x))+1)+F_penalty

其中，Loss_G和Loss_D分别为生成器和判别器的损失函数，z是样本空间Z的隐向量特征值，D(G(z))是来自生成样本的判别器输出；D(x)是来自真实样本的判别器输出，penalty函数为判别器的梯度惩罚项，

其中，r1_gamma为对真实样本的梯度惩罚参数，r2_gamma为对生成样本的梯度惩罚参数，和/>为惩罚区样本的梯度。

本发明采用bCR算法(balanced consistency regularization，平衡一致性正则化)来解决由于数据量不足导致的判别器过拟合问题。算法步骤为：

步骤1)：从正态分布p(z)和p_data(x)取样本z～p(z),x～p^data(x)，对原始样本x做数据增强得到一个变形后的分布T(x)；

步骤2)：计算判别器学习后的真实样本和加强的真实样本之间的差异，即通过公式(1)计算损失函数L_real；

L_real＝||D(x)-D(T(x))||² (1)

其中，T(x)为数据增强后的样本分布，计算两者之间的l2范式可得到这两种分布之间的差异。

然后，通过公式(2)构造判别器的损失函数

L_D＝D(G(z))-D(x) (2)

其中D(G(z))和D(x)分别为生成样本和真实样本通过判别器的惩罚值，两者差值为判别器损失函数，使其尽可能地不区分源数据和加强后的数据。

步骤3)：每当结束一个batch_size次数的训练时，对公式(1)和(2)损失函数进行更新，用Adam优化器更新判别器的参数，公式为：

其中θ_D是判别器的参数，λ是一致性正则化系数，α,β₁,β₂为Adam优化器超参数，M为batch size。

步骤4)：当判别器完成所有batch的处理，生成器结束一次迭代时，取使用Adam优化器更新生成器的参数，公式为：

其中θ_G是生成器的参数，α,β₁,β₂为Adam优化器超参数，M为batch size；以上为算法一次总迭代的方法。

步骤3，向改进后的风格对抗生成网络stylegan2导入数据集：将脸谱图像数据集转换成stylegan2可用的数据集格式(TFRecords)，作为训练集导入网络中；输入训练相关的参数，输入训练的参数batch_size＝8，snap＝10，并对训练集进行数据增强；

输入图像的潜向量z经过归一化后进入由8个全连接层构成的映射网络进行非线性变换，即映射网络通过一系列仿射变换(线性变换+平移)，使得可以空间映射到表达更深层图像特征的中间隐藏变量ω上，然后ω转换为风格y，

y＝(y_(s,i),y_(b.i))

然后结合AdaIN(adaptive instance normalization)风格变换方法

这里y(s,i)和y(b,i)分别表示风格图特征的标准差和均值，μ(x_i)和δ(x_i)分别表示内容图特征的均值和标准差。

然后进入合成网络(synthesis network)，初始为一个4*4*512的常量矩阵，给每一层子网络输入由ω转换得到的仿射变换和转换后的随机噪声，由ω转换得到的仿射变换用于控制生成图像的风格和全局属性；转换后的随机噪声用于丰富生成图像的细节和控制一些相对次要的随机向量。卷积层根据输入的ω转换得到的仿射变换来调整风格。设置一次迭代判别器学习的生成样本数量，每次迭代后使生成样本进入镜像层进行线性变换，公式为：

设表示特定对称轴的向量，则a为(x,y)^T，通过上式求线性变换φ对应的矩阵为

根据A计算其特征多项式f_λ＝λ²-T_r(A)λ+det(A)，由和得a^T为(v,-u)或(u,v)；则A的特征向量为/>注意到/>故/>又det(A)＝-1，则/>从而/>是以/>为对称轴的对称变换。若以为另一组正交基，则/>的矩阵为/>然后通过图片上采样和卷积核操作逐步提高分辨率，最终达到3*1024*1024的值。每次上采样之前利用风格隐向量对每个归一化空间特征图执行缩放操作和偏置操作。之后计算每一层的风格值对(y_(s,i),y_(b,i))作为ω的缩放值和偏置值，从而能将风格特征表现在空间特征图中。

步骤4，在网络过拟合前不断观察，随着FID值不断下降并稳定下来(代表生成图像和原图像的特征分布越来越相似)，停止训练并挑出图像质量较好的阶段的参数，输入生成器进行图像生成，得到最终的新脸谱，参见图4。

图3为原始styleGAN2网络训练生成出来的脸谱图像，可以看到生成的脸谱图像在分辨率和对称特征上都不尽如人意。

如图4所示，通过改进后的styleGAN2网络，最终生成的脸谱图像取得了较好的结果，在分辨率提升和对称特征上有了不错的进步。为了确认生成的新脸谱确实是在原数据上进行的创新，我们选取了原数据集中和生成脸谱中特征尽可能相似的图像来进行对比，如图5所示，可以看到，图4第一张学习到了图5第一张的基本纹路和第二张的眉形，并在眉形的颜色上进行了创新等。

综上所述，本实施例对所述发明进行了详细说明，在保证脸谱特征信息的完整下，进行了提取特征和生成合并的操作。有效地解决了脸谱图像生成清晰度不高等问题，传承、发扬并创新了秦腔脸谱传统文化。

Claims

1.一种基于风格对抗生成网络stylegan2的脸谱图像生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于风格对抗生成网络stylegan2的脸谱图像生成方法，其特征在于，所述步骤1中脸谱图像数据集为512*512的长宽相等的图像。

3.如权利要求1所述的基于风格对抗生成网络stylegan2的脸谱图像生成方法，其特征在于，经所述步骤2改进后的风格对抗生成网络stylegan2的工作过程为：图像数据集的潜向量z经过归一化后进入由8个全连接层构成的映射网络进行非线性变换，用来解开特征向量z的特征纠缠，使得可以空间映射到表达更深层图像特征的潜向量空间W上；合成网络中初始为一个4*4*512的常量矩阵，通过图片上采样和卷积核操作逐步提高分辨率，最终达到3*1024*1024的值；每次上采样之前利用风格隐向量对每个归一化空间特征图执行缩放操作和偏置操作；之后计算每一层的风格值对(y_(s,i),y_(b,i))作为ω的缩放值和偏置值，从而能将风格特征表现在空间特征图中。

4.如权利要求1所述的基于风格对抗生成网络stylegan2的脸谱图像生成方法，其特征在于，所述步骤4训练改进后的风格对抗生成网络stylegan2得到新脸谱的具体过程为：图像训练集首先进入映射网络，映射网络由8个全连接层构成，通过一系列仿射变换，由隐向量z变为隐向量ω，ω转换为风格y，

y＝(y_(s,i),y_(b.i))

结合AdaIN风格变换方法：

根据A计算特征多项式fλ＝λ²-T_r(A)λ+det(A)，由和得a^T为(v,-u)或(u,v)；