CN113096020A

CN113096020A - 基于平均模式生成对抗网络的书法字体创作方法

Info

Publication number: CN113096020A
Application number: CN202110501980.3A
Authority: CN
Inventors: 张扬; 马小虎
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-09
Anticipated expiration: 2041-05-08
Also published as: CN113096020B

Abstract

本发明公开了一种基于平均模式生成对抗网络的书法字体创作方法，包括获取待训练数据集进行统一尺寸处理，对训练集进行多次下采样得到各层级的特征图尺寸；按照特征图的尺寸逐层构建对应尺寸的生成器和判别器，级联各层级的生成器，在每层级的生成器上连接对应尺寸的判别器；在各层级上构建生成器和判别器的损失函数，构建Adam优化器进行权重优化得到模式平均的图像生成对抗网络的初步模型；使用训练集训练初步模型得到训练完成的模式平均的图像生成对抗网络模型；选取汉字的不同字体样本输入训练完成的模型中得到新的字体样式。本发明通过构建级联式的生成器和模式平均的思想，使得生成的字体样式在局部表现出多样性、并且字形正确又清晰。

Description

基于平均模式生成对抗网络的书法字体创作方法

技术领域

本发明涉及深度学习技术领域，具体涉及一种基于平均模式生成对抗网络的书法字体创作方法。

背景技术

生成对抗网络(Generative Adversarial Network，GAN)是由Goodfellow于2014年提出的一种生成模型，其核心思想是“零和博弈”即最优化目标函数。在书法字体创作领域，2017年4月，基于pix2pix模型提出的zi2zi应用，提供了一种处理中文字体转换的解决方案，之后便涌现出一批改进模型。这些方法可以将输入的中文宋体字符图片转化为所训练的指定字体，相较于pix2pix对于字体转换做出了特有的改进，使输出的字体图像更清晰。2019年，由Yue Jiang等人提出的SCFont增加了模型对字体中笔画的分析，并且由一阶段生成改为二阶段生成，首先完成字体骨架的转换，然后再完成具体笔画的绘制，使得字符转换的结果细节更清晰，即使较复杂的结构各笔画也能较好分离。

但是，Zi2zi和ScFont都是基于风格转换的模型，当模型训练完成后需要输入汉字字符的一像素骨架图像，然后生成器通过骨架图像生成出对应转换的字体图像，即需要事先有明确的需要生成的目标字体才可以，无法生成一个汉字的一种全新风格的字体。虽然也有如DCGAN、LSGAN等非风格转换的通用的纯生成模型，但是由于单个书法汉字所对应的训练集较小，这些模型训练通常会发生过拟合，出现生成出的样本同训练集中的个别样本几乎一致的情况，生成结果在局部无法表现出多样性，难以生成字形正确又清晰的样本。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提出一种可以在给定一些已有的书法字体样本的情况下生成这个字的一些新的字体或是变形的、并且可以在局部表现出多样性，字形正确又清晰的基于平均模式生成对抗网络的书法字体创作方法。

为解决上述技术问题，本发明提供了一种基于平均模式生成对抗网络的书法字体创作方法，包括以下步骤：

步骤1：获取待训练数据集，对数据集中的图像进行尺寸处理得到图像尺寸统一的训练集；对训练集进行多次下采样计算，得到各层级网络处理的特征图尺寸；

步骤2：按照各层级特征图的尺寸逐层构建对应尺寸的生成器和判别器，级联各层级的生成器，在每层级的生成器上连接对应尺寸的判别器；

步骤3：构建各层级生成器的损失函数和判别器的损失函数，在每层级上构建Adam优化器并对每层级的生成器、判别器、生成器的损失函数和判别器的损失函数进行权重优化，得到模式平均的图像生成对抗网络的初步模型；

步骤4：使用训练集对模式平均的图像生成对抗网络的初步模型进行训练，得到训练完成的模式平均的图像生成对抗网络模型；

步骤5：选取汉字的不同字体样本输入训练完成的模式平均的图像生成对抗网络模型中，输出得到新的字体样式。

进一步地，所述步骤2中级联各层级的生成器后，每个层级包括随机噪声、生成器、上一级生成器的生成结果和双线性插值图像缩放，随机噪声通过生成器直接生成当前处理尺寸的图像，接着通过双线性插值图像缩放得到上采样的图像后作为下一层生成器的输入；

图像数据经过各层级的生成器后，最终的图像输出X_out为：

X_out＝G₅(z₅,br(G₄(z₄,br(G₃(z₃,br(G₂(z2,br(G₁(z₁)))))))))，

其中z₁、z₂、z₃、z₄、z₅分别为随机噪声经过每个层级后生成的图像，br(·)表示双线性插值图像缩放，G₁、G₂、G₃、G₄、G₅分别为每个层级的生成器。

进一步地，所述步骤2中在每层级的生成器上连接对应尺寸的判别器，所述判别器为不带下采样的马尔可夫判别器，每层上的判别器的尺寸与所处层处理的特征图的尺寸相同，每层上的判别器在训练判别器所处的层级时被激活。

进一步地，所述步骤4中使用训练集对模式平均的图像生成对抗网络的初步模型进行训练，具体过程为：

步骤4.1：初始化第一层生成器G₁和判别器D₁的权重；

步骤4.2：激活第1层～第i层的生成器G₁～G_i和第i层的判别器D_i，使用Adam优化器对第i层的生成器G_i和判别器D_i的权重进行预设次数的迭代优化；

步骤4.3：重复步骤4.2直到所有层都训练完成，保存所有层级的生成器的权重。

进一步地，所述步骤4.2中使用Adam优化器对第i层的生成器G_i和判别器D_i的权重进行预设次数的迭代优化时，对第1层～第i-1层的生成器G₁～G_i-1和判别器D₁～D_i-1的权重进行n次的迭代优化，对最后一层第i层的生成器G_i和判别器D_i的权重进行3n次的迭代优化，用于使模式平均的图像生成对抗网络模型稳定收敛；

一次所述迭代优化包括先优化三次当前层上的判别器的权重，再优化三次当前层上的生成器的权重。

进一步地，所述步骤2中按照各层级特征图的尺寸逐层构建对应尺寸的生成器和判别器，其中每层生成器的结构包括输入的随机噪声、线性插值后的上一层生成结果、卷积模块、纯卷积层和使用tanh作为激活函数的激活层，随机噪声和线性插值后的上一层生成结果加和后依次输入卷积模块、纯卷积层和使用tanh作为激活函数的激活层，输出结果和线性插值后的上一层生成结果加和作为生成器的输出；所述卷积模块包括输入特征图，一个卷积核为3×3、跨度为1、通道为d的卷积层，一个批规范化层和一个使用Leaky ReLU作为激活函数的激活层；

每层级的生成器对数据的处理过程为：

其中

表示在当前层生成器内部从第一个卷积模块到最终使用tanh作为激活函数的激活层的过程，

表示当前层生成器所生成的图像，ε表示噪声率，z_i表示该层的随机噪声图，br(·)表示双线性插值是缩放过程，n为生成器的总层数。

进一步地，所述步骤2中按照各层级特征图的尺寸逐层构建对应尺寸的生成器和判别器，其中每层判别器的结构包括用于接受来自生成器生成的图像或是真实数据集的图像的输入层、连续的四个卷积模块和一个纯卷积层；

判别器的输出值R的计算公式为：

其中F(i,j)为特征图，特征图的尺寸为h×w×1。

进一步地，所述步骤3中生成器的损失函数LossG_i的计算公式为：

其中LossG_i为第i级生成器的生成损失，

表示第i级生成的假图像，X_i表示真实图像缩放到第i级尺寸的图像；α是一个预先设定的超参数；rec(·,·)表示一致性损失函数；

对于单幅图像

和x∈X_i而言，一致性损失函数

的计算公式为：

其中

是生成的图像与真实图像的均方差损失，计算公式为

是生成图像和真实图像的边缘结构性损失，计算公式为

其中sobel_dx(X)表示沿x方向的sobel算子作用后的图像；sobel_dy(X)表示沿y方向的sobel算子作用后的图像。

进一步地，所述步骤3中判别器的损失函数LossD_i的计算公式为：

其中LossD_i为第i级判别器的损失，X_i表示真实图像缩放到第i级尺寸的图像，

表示第i级生成的假图像；GP(·,·)为梯度惩罚。

进一步地，所述步骤5中选取汉字的不同字体样本输入训练完成的模式平均的图像生成对抗网络模型中时，模式平均的图像生成对抗网络模型中的超参数噪声放大率的取值范围为[0.10,0.15]，超参数学习率的取值范围为[0.00010,0.00015]，超参数输入模式数量的取值范围为[10,25]。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于平均模式生成对抗网络的书法字体创作方法通过构建级联式的生成器，没有在网络内部对特征图进行上采样而是对该层生成器具体生成的图像进行上采样并且作为下一层生成器的输入；通过生成对抗网络中模式平均的思想，构建生成器、判别器、生成器的损失函数和判别器的损失函数，使得在给定一些已有的书法字体样本的情况下，可以在生成这个字的新的字体或是变形的同时在局部表现出多样性、并且字形正确又清晰。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明的流程图。

图2是本级联各层级的生成器后生成器的总体结构示意图。

图3是本发明中训练模式平均的图像生成对抗网络的初步模型的示意图。

图4是本发明中一次迭代优化过程的示意图。

图5是本发明中每层生成器的结构示意图。

图6是本发明中生成器中卷积模块的结构示意图。

图7是本发明中判别器的结构示意图。

图8是本发明实施例中生成“野火烧不尽，春风吹又生”实验的结果图。

图9是本发明实施例中选取“野”字并设置不同权重时的生成结果图。

图10是本发明实施例中选取“清”字并设置不同噪声放大率时的生成结果图。

图11是本发明实施例中选取“尽”字并设置不同噪声放大率时的生成结果图

图12是本发明实施例中在学习率为0.00025的情况下，选取“清”字并设置不同输入模式数量时的生成结果图。

图13是本发明实施例中在输入模式数量为5的情况下，选取“清”字并设置不同学习率时的生成结果图。

图14是本发明实施例中在学习率为0.00015的情况下，选取“清”字并设置不同输入模式数量时的生成结果图。

图15是本发明实施例中去除一致性损失函数后的各层级生成结果图。

图16是本发明实施例中对DCGAN使用本发明设计的一致性损失的实验结果图。

图17是本发明实施例中做不同模型间对比实验时所采用的训练集。

图18是本发明实施例中做不同模型间对比实验时得到的结果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在本发明的描述中，需要理解的是，术语“包括”意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备，没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明中“模式平均”的定义以及实现方式的说明：

根据GAN的思想，一个生成器G对应着一个输出概率分布p_G，也就是所谓的生成器输出域，每一次具体的生成G(z)即相当于在分布p_G中进行一次采样。同样的，对应于训练生成器的训练集也对应着一个分布p_data。

一般在没有对生成器进行额外限制的情况下，训练生成器都是设法将p_G与p_data尽可能拟合，即设法满足公式

以得到最终的生成器G*。公式中Div表示两个分布的散度或者可以理解为距离。

因此便可以用生成器的输出分布p_G来定义一个保持局部多样性的平均模式生成器(生成对抗网络的训练目标)：

给定一个输入模式的集合X＝{x₁,x₂,...,x_n}以及每个输入模式对应的权重集合A＝{a₁,a₂,...,a_n}，训练完成后生成器G所对应的输出分布p_G以及其中的采样

和分布p_data-p_G中的采样t，此时p_G应当满足式(1)。

其中，公式(1)的第一行表述了生成对抗网络的训练目标，生成器的输出会被判别器认为是真实图像，即拓扑结构的保持。公式(1)的第二行表述了模式平均的目标，即拓扑结构保持的前提下，何种输出图像(模式)是最接近输入模式加权平均的。

通过在损失函数中使用一致性损失来满足公式(1)中第二行的表述，使用生成对抗网络中的判别器对生成图像的拓扑结构进行约束来满足公式(1)中第一行的表述以此来实现模式平均。

参照图1流程图所示，本发明一种基于平均模式生成对抗网络的书法字体创作方法的实施例，包括以下步骤：

步骤1：获取待训练数据集并对数据集中的图像进行尺寸处理得到图像尺寸统一的训练集；本实施例中将待训练数据集中的图像的尺寸全部统一缩放到64×64。对训练集进行多次下采样计算，得到各层级网络处理的特征图(图像)尺寸；本实施例中以下采样因子(scale_factor)为0.8对下采样的图像尺寸进行计算，直到图像尺寸小于25×25位置，得到各层级网络所处理的特征图尺寸。分别为64×64、51×51、40×40、32×32和25×25。

本发明使用全卷积构筑，可以适应各种分辨率的图像作为输入和输出，本发明所采用的训练集图像的分辨率根据数据集的不同有64×64和96×96两种。为了便于绘制示意图，在介绍模型相关结构时均采用64×64分辨率的图像作为模型的输入和输出。由于是金字塔结构的生成器模型，自然每一层级所处理的图像(和特征图)的分辨率是不同的，对于本发明的模型，设定下采样因子(Scale Factory)为0.8，即上一层级所处理的图像(和特征图)分辨率是下一层级的0.8倍(四舍五入)；同时设定最小处理分辨率为25×25。以训练和输出64×64分辨率的图像为例，可以计算出生成器总共包含5个层级，分别处理25×25、32×32、40×40、51×51和64×64尺寸的图像。那么对于总的生成器，便可以按图2的模型进行构建。

步骤2：按照各层级特征图的尺寸逐层构建对应尺寸的生成器和判别器，级联各层级的生成器，在每层级的生成器上连接对应尺寸的判别器；本实施例中按照各层级特征图的尺寸按从小到大的顺序逐层构建生成器，并将各层级生成器的结果保存至列表G_list中；此处生成器的结果指一个虚拟容器，其内容会根据输入生成器数据的不同而改变。逐层构建与生成器尺寸对应的判别器，并且分别构建判别器假数据列表D_fake_list和判别器真数据列表D_real_list，假数据列表D_fake_list中存放有各层级生成器所生成的结果作为各层级判别器的输入而得到的结果；判别器真数据列表D_real_list中存放有真实数据缩放到各层级图像尺寸后的图像作为各层级判别器的输入而得到的结果。

如图2级联各层级的生成器后生成器的总体结构示意图所示，级联各层级的生成器后，本实施例中64×64分辨率的数据集包括五个层级，若数据集的分辨率为96×96则模型有六个层级，每个层级包括随机噪声、生成器、上一级生成器的生成结果和双线性插值图像缩放，随机噪声通过生成器直接生成当前处理尺寸的图像，接着通过双线性插值图像缩放得到上采样的图像后作为下一层生成器的输入。图像数据经过各层级的生成器后，最终的图像输出X_out为：X_out＝G₅(z₅,br(G₄(z₄,br(G₃(z₃,br(G₂(z2,br(G₁(z₁)))))))))，其中z₁、z₂、z₃、z₄、z₅分别为随机噪声经过每个层级后生成的图像，br(·)表示双线性插值，G₁、G₂、G₃、G₄、G₅分别为每个层级的生成器。

在每层级的生成器上连接对应尺寸的判别器，所述判别器为不带下采样的马尔可夫判别器，每层上的判别器的尺寸与所处层处理的特征图的尺寸相同，每层上的判别器在训练判别器所处的层级时被激活。

如图5所示，每层生成器的结构包括输入的随机噪声(noise)、线性插值后的上一层生成结果(last_fake_resized)、卷积模块(conv_block)、纯卷积层(conv_2D)和使用tanh作为激活函数的激活层，随机噪声和线性插值后的上一层生成结果加和后依次输入卷积模块、纯卷积层和使用tanh作为激活函数的激活层，输出结果和线性插值后的上一层生成结果加和作为生成器的输出。

图5中的“+”表示将特征图对应位置的元素值进行加和，其中conv_block即为图6所示的卷积模块，conv_2d为仅做卷积运算、不含其余任何处理且不含激活函数的层。

每一级的独立生成器只需要以给予的随机特征图和上一级生成的图像为输入即可得到这一级的图像输出，每一层级生成器除了所处理的特征图尺寸大小不同以及残差连接的系数不同外其余的卷积层参数是一致的，由于本发明节各层的生成器与判别器内部不存在特征图的尺寸变换，只存在对特征图上各位置的数值进行变换的操作，因此根据设计目的和为了便于使用设计了统一的卷积模块。每层上生成器中的卷积模块结构相同，如图6所示卷积模块包括输入特征图(input)，一个卷积核为3×3、跨度为1、通道为d的卷积层(即conv_2D)，一个批规范化层和一个使用Leaky ReLU作为激活函数的激活层。卷积模块不改变特征图长宽尺寸，且无论输入通道为多少，输出通道数固定为d，其中的通道数d是可以调节的，本发明的模型中设置为64。在需要改变特征图尺寸的(长和宽)或是不需要规范化和激活函数的层时，不使用上述卷积模块。

每层级的生成器对数据的处理过程为：

其中

表示当前层生成器所生成的图像，ε表示噪声率(noise_amp)，z_i表示该层的随机噪声图，br(·)表示双线性插值是缩放过程，n为生成器的总层数。在生成器第一层时，由于没有来自上一层的last_fake(上一层的生成器结果作为这一层生成器输入的一部分)，因此初始层只需要根据随机噪声图进行图像生成即可；在最后一层生成器时，由于之前的生成结果已经可以较好地描述目标的拓扑结构，因此降低最终生成层对上一层的参考，使得最终生成层的输出能更多地关注随机噪声图的变换结果来更多地描述图像细节的变化，进而增加结果的多样性。

如图7每层级判别器的结构示意图所示，所述判别器的结构包括用于接受来自生成器生成的图像或是真实数据集的图像的输入层(input)，连续的四个卷积模块(conv_block)和一个纯卷积层(conv_2D)；

判别器的输出值R的计算公式为：

其中F(i,j)为特征图，特征图的尺寸为h×w×1。判别器的输出是一个h×w×1的特征图，真实需要的判别器输出实为这张特征图的均值，把求均值的过程放在判别器外进行即计算损失函数时进行，其实际的判别器输出值为R。同时，为了满足使用梯度惩罚优化生成对抗网络的条件，输出并不附加任何激活函数，因此对于判别器的输出R，R→∞表示判别器认为输入图像来自于真实数据集，而R→-∞相应地表示判别器认为输入图像是由生成器所生成的伪造图像。

本发明中的判别器不采用级联结构，但是依附于对应层的生成器，模型最终划分出多少层即有多少级生成器就应当设置多少个判别器。每一个判别器只针对这一尺寸的图像，处理的数据包含对应层级生成器生成的图像和由原始图像集缩放得到的来自真实数据的图像。

本发明中的判别器采用马尔科夫判别器，即最终判别器的值应当是输出特征图(二维单通道)的均值，并且经过相关实验，在每一阶段的判别器中均不采用下采样，保持输入和输出的特征图长宽尺寸是一致的。在判别器内部不采用下采样是出于本身模型整体就是多尺度的，各个不同层本就处理不同尺寸的图像(和特征图)；其次如果需要经过下采样，由于下采样方式通常为池化或是跨步卷积，只能对特征图长宽进行整除操作，因此依旧难以保持经过下采样后不同层判别器的输出特征图的长宽尺寸是一致的或是各层判别器的输出特征图保持一致比例缩放。

步骤3：构建各层级生成器的损失函数和判别器的损失函数，在每层级上构建Adam优化器并对每层级的生成器、判别器、生成器的损失函数和判别器的损失函数进行权重优化，得到模式平均的图像生成对抗网络的初步模型；本实施例中构建生成器损失列表G_error_list并存放各层级生成器的损失值，构建判别器损失列表D_error_list并存放各层级判别器的损失值；确定各层级的生成器损失所对应的权重并存放至g_var_list中；确定各层级判别器损失所对应的权重并存放至d_var_list中，分别对各层级的生成器和判别器构建Adam优化器，并存入生成器优化器列表G_opt_list和判别器优化器列表D_opt_list中。

每一级的生成器只关心自己这一级生成的图像质量而不会考虑再去调整上一级生成器使得自己获得更优的结果。即在随机输入和上一级输入确定的情况下，如何使得自己这一尺寸的输出图像更好。每一级的生成器损失由两个部分构成，一是对抗损失(来自于判别器D给出的结果)，另一部分是结构一致性损失。因此所述生成器的生成损失LossG_i的计算公式为：

其中LossG_i为第i级生成器的生成损失，

表示第i级生成的假图像(一个batch，由于训练模型时通常并非一次输入一个样本进行迭代而是输入一定数量的样本(batch_size)个，此时每次输入的一批样本就构成了一个batch)，X_i表示真实图像缩放到第i级尺寸的图像(一个batch)；α是一个预先设定的超参数，本实施例中设定为10，同时为了让最终输出的图像更为清晰，由于均方差损失的特性(类似于均值滤波)会导致图片有一定模糊，因此在模型的最后一层训练时α的值为5，以减小此时对图像一致性的依赖，只要图像能够“骗”过判别器即可；rec(·,·)表示一致性损失函数，其单次输入是生成器生成的一个batch的图像与训练集中的一个batch数目的图像，由于训练过程中训练集图像的输入顺序会被打乱，因此最终的优化结果即为使生成器生成同训练集中所有图像一致性损失之和最小的伪造图像。

对于单幅图像

和x∈X_i而言，一致性损失函数

的计算公式为：

其中

是生成的图像与真实图像(经过缩放)的均方差损失，计算公式为

是生成图像和真实图像(经过缩放)的边缘结构性损失，计算公式为

其中sobel_dx(X)表示沿x方向的sobel算子作用后的图像；sobel_dy(X)表示沿y方向的sobel算子作用后的图像。SSIM结构相似值的取值范围为[0,1]，其中1表示两幅图像结构完全一致，0表示两幅图像结构完全不一致。

使用边缘特征并且计算结构性损失的目的是减少笔画的重影，由于重影的出现来自于均值化，基于均值化的操作很难再将重影消除，因此使用边缘特征，如果在不该有的位置出现重影，那么通过边缘特征便可将其表示出来再通过结构性损失将其消除。这里使用结构性损失还有另一好处就是，相较于均方差损失，结构性损失对一块区域的平移操作敏感度较低，因而能够减少因为相对位置的平移造成的损失升高。

本发明中的判别器只关心能否正确分辨出在指定尺寸下给的图像是来自于生成器还是真实数据集，因此所述判别器的损失函数LossD_i的计算公式为：

其中LossD_i为第i级判别器的损失，X_i表示真实图像缩放到第i级尺寸的图像(一个batch)，

表示第i级生成的假图像(一个batch)；GP(·,·)为梯度惩罚，其具体实现方式可参照文献{Gulrajani I,Ahmed F,Arjovsky M,Dumoulin V,Courville A.Improvedtraining of wassersteingans[A].Conference on Neural Information ProcessingSystems 2017[C].Long Beach:MIT Press,2017:5768-5778.}中说明，这是一种常用改进方法，不再赘述。

如图3训练模式平均的图像生成对抗网络的初步模型的示意图所示，训练模式平均的图像生成对抗网络的初步模型，具体过程为：

步骤4.1：初始化第一层生成器G₁和判别器D₁的权重；

步骤4.2：激活第1层～第i层的生成器G₁～G_i和第i层的判别器D_i，使用Adam优化器对第i层的生成器G_i和判别器D_i的权重进行预设次数的迭代优化。

对第1层～第i-1层的生成器G₁～G_i-1和判别器D₁～D_i-1的权重进行n次的迭代优化，对最后一层第i层的生成器G_i和判别器D_i的权重进行3n次的迭代优化，用于使模式平均的图像生成对抗网络模型稳定收敛；如图4所示所述一次迭代优化包括先优化三次当前层上的判别器的权重，再优化三次当前层上的生成器的权重。

本实施例中，当训练第一层时，首先初始化G₁和D₁的权重，而后进行优化迭代，因为第一层不是最终层，因此执行2000次图4的迭代，第一层优化完成后固定G₁和D₁的权重后续不再优化；训练第二层时，使用G₁得到第二层中G₂的一部分输入(上一层生成器结果，Last_fake)，并且初始化G₂和D₂的参数同样进行训练直到训练第五层时，G₁、G₂、G₃、G₄参数已经固定(D₁、D₂、D₃、D₄的参数已经无用可以丢弃)，从G₁开始逐层生成直到G₄，将G₄的生成结果作为G₅输入的一部分，并且初始化G₅和D₅的参数并且开始优化，由于第五层是最终输出层，因此执行6000次图4的迭代。

由于生成器是级联式的，只有当最后一层训练完成时才算整个模型训练完成，因此有别于其他模型可以一直训练下去观察结果。在这个级联式模型中，除了最后一层的训练外都必须有截断条件，本发明中使用训练次数予以截断。本实施例中，对于非最终输出层(生成器所输出图像的尺寸小于设定的输出尺寸)的生成器层，每一层迭代优化2000次；而最终输出层则迭代优化6000次以使得最终生成的结果相对更稳定。为了能够在较小的学习率下(学习率过大可能会生成失败或者模型振荡难以收敛)进行训练的同时给对方(让D能更好判别真假是为了提供G优化的梯度，使G生成更以假乱真的图像)足够的梯度进行优化。对于G而言，如果每次由D提供的梯度过小，进步会非常缓慢同样收敛速度慢，因此使用三次优化作为一组来加速收敛，同时训练三次为一组也能让每一次迭代的结果更为稳定(减少因为某次异常的突变影响训练进程的方向，连续训练三次如果G(或者D)在某一次优化后发生异常变化后下一次优化大概率可能自动纠正，不会让这个异常变化同时传播到D(或者G)中)，减少偶然的变化对模型训练进程的影响。

选取汉字的不同字体样本输入训练完成的模式平均的图像生成对抗网络模型中时，模式平均的图像生成对抗网络模型中的超参数噪声放大率的取值范围为[0.10,0.15]，超参数学习率的取值范围为[0.00010,0.00015]，超参数输入模式数量的取值范围为[10,25]。通过对超参数取值范围的控制，完成对字体变形程度的控制，即确定了字体的大致风格后对笔画等细节的变形程度进行了控制，保证了生成新的字体或是变形的同时可以在局部表现出多样性、字形正确又清晰。本实施例中参数设置为：超参数(无默认值的超参数)有输入及输出图像的长和宽(简记为size)，可选的超参数(具有默认值的超参数)有生成器塔下采样因子(scale_factor，默认为0.8)，最小图像尺寸(min_size，默认为25)，层噪声放大率(noise_amp，默认为0.1)，梯度惩罚系数(lambda_grad，默认0.1)，生成器一致性损失系数(alpha，默认为10)和Adam优化器的学习率及beta1，beta2(默认为0.0002，0.5，0.999)。

为了说明本发明的有益效果，本实施例中以书法字体创作为任务目标对本发明中平均模式生成的性能以及生成平均模式时保持图像局部多样性的性能进行评估以及对比。由于(书法)字体通常以灰度图像表示，且以不同的灰度值来描述不同的结构，通常情况下对于书法字体的生成有着较强的拓扑结构要求，因此认为这是实验“保持结构一致性且进行样式平均”即模式平均的良好载体。选取多个不同的汉字进行字体生成，对于每个汉字，均选取16种不同的字体样本作为输入来求得一种平均模式。在模型训练完成后进行多次生成，观察每次生成的图片在拓补结构上的一致性和在局部细节(本实施例中为笔画处)表现出的多样性。

以生成“野火烧不尽，春风吹又生”为目标，进行字体生成实验，其结果如图8所示，图8中方框标注处即为表现出的图像局部的多样性变化，同时从图8中也可以看出笔画骨架的基本一致性。为了具体地表现上述生成的特点，计算图8中各个汉字图像的SSIM结构相似值均值。对于每个汉字而言，SSIM结构相似值均值的计算公式为：

各汉字的SSIM均值结果如表1所示：

汉字	野	火	烧	不	尽	春	风	吹	又	生
											SSIM均值	0.79	0.82	0.77	0.88	0.84	0.75	0.73	0.74	0.82	0.86

表1汉字生成图像的SSIM均值表

从表1可以看出，这一批生成的样本每个汉字的不同图像的SSIM均值在0.75～0.9之间，而SSIM值的取值范围为0～1，从数值结果上可以说在保持了基本结构的一致性后，没有生成完全一致的图像而仍然保留了一部分的变化，实现了生成新的字体的同时在局部表现出多样性、字形正确又清晰的目标。

在通常情况下，每个输入样本所设置的权重均为1，但是当对输入样本(模式)集中的某个样本(模式)特别偏好时，可以通过修改损失权重来达到使得最终生成的图像更接近于所感兴趣的模式。因此在研究设置权重的字体生成时，对于损失函数

默认情况下对于一个batch

中每一幅生成器所生成的图像

按照式

计算同训练集中所有模式的MSE损失，其中x_i为训练集X中每个具体的模式。但当使用非等值的权重时，即按照式

的方式进行，其中α₁～α_N为每个模式所对应的权重。本实施例中选取“野”字，选择“野”字训练集中的16个样本中的某个样本，将其权重分别设置为1,2,3和4并且保持其他模式的权重为1进行实验，观察权重模式下的模式平均结果，实验结果如图9所示。从图9可以明显观察到，增加某一个样本的权重可以使得最终生成器生成的结果更接近于那个样本，同时生成的结果也依然保持着局部的多样性。同时，计算各个权重下的生成结果同所选样本的SSIM值，其结果如表2所示，结果同图像上的直观感受一致，同样实现了生成新的字体的同时在局部表现出多样性、字形正确又清晰的目标。对不同样本设置不同权重可以在小样本训练时依旧有偏好的对书法字体进行创作。

权重值	1(默认值)	2	3	4
					SSIM值	0.57	0.65	0.71	0.81

表2对“野”字设置不同权重下的生成结果同该样本的SSIM均值表

为了说明噪声率(noise_amp)和学习率(learning_rate)对图像的生成造成的影响，本实施例中也进行了实验。

首先研究噪声放大率(noise_amp)会对生成结果产生何种影响。噪声率影响除第一层外的层生成器允许的随机变化度，决定了最终生成结果的多样性，锐度和清晰度。选取汉字“清”在固定学习率(learning_rate＝0.0002)的情况下，通过设置不同的noise_amp获得的结果如图10所示。从图10关于噪声放大率(noise_amp)的实验可以看出，噪声放大率越低样本生成的图像越清晰，但同时会降低生成时的多样性。当噪声率增高时，输出图像的多样性增加，但同时比较容易出现笔画模糊和伪影的问题，同时过高的噪声率也会造成对图像拓扑结构的破坏。因此噪声放大率的设置通常会根据具体需要创作的汉字的不同进行选择，一般设置在[0.05,0.15]的范围内。接着，再次选取一个生成过程中容易造成拓扑结构破坏的“尽”字，进一步论证噪声率需要根据所需创作的具体汉字来进行设置，实验结果如图11所示。汉字“尽”由于下部两点结构上相对独立，一旦给与较大的生成自由度就会造成拓扑结构的破坏，这一点从实验结果的图11就可以明显看出。从图10的结果对比图11的结果可以看出，由于“尽”字自身的特点与“清”字不同，在噪声率达到0.10时就已经会出现拓扑结构损坏的情况，而“清”字的生成在噪声率0.10～0.15时是平衡多样性和结构一致性的最佳状态。以上分析可以得出噪声率的设置通常有一个推荐范围[0.10,0.15]但仍然需要根据具体汉字或是具体结构进行细微的调整以达到最佳的生成状态。

学习率(learning_rate)是另一个需要根据具体的生成任务进行调整的超参数，其调整主要参照于训练样本数(即输入模式的数量)。

本实施例中依然使用拓扑结构较易保持的“清”字进行实验。首先在学习率为0.00025的情况下，选取不同的输入模式数量进行实验，得到的实验结果如图12所示。从结果中可以看出，在这一学习率下，输入模式的数量如果太少则难以进行模式平均。可以理解为由于输入的模式数量少，生成结果即使是较小的变动在计算MSE损失时也会引起相对较大的变化，同时又由于这一较大的学习率，模型优化时损失函数会在最优值的“谷底”两侧振荡难以继续降低，从图像生成结果来看即为图像质量不高或是没有达到预期的模式平均的要求。为了验证上述猜想，对输入模式数为5的情况，使用不同的学习率进行实验对比，其实验结果如图13。实验结果表明，降低学习率确实有利于提升模式平均的性能，并且提高生成图像的质量。同时不可忽视的是，降低学习率会不可避免地导致收敛速度变慢，因此的模型在训练最后一层生成器时通过迭代三倍于其他层生成器的次数来确保最终模型达到收敛。同样地，对各个输入模式数量的训练均可以通过降低学习率来提高，但学习率不宜过小，若学习率设置过小则较低尺寸的生成器也难以在2000个迭代次数内完成收敛，此时需要额外增加每一层的迭代次数，同时最终的生成结果未必会有所提升。图14是在学习率0.00015的情况下，使用不同输入模式数量的图像生成结果，可以观察到使用各个数量的输入模式的训练其最终的生成结果都有一定的提升。

为了说明实现“模式平均”这一功能，本发明在结构(级联式生成器)设计和损失函数(一致性损失)的设计的必要性，主要通过两个实验进行论证。其一是保持模型结构的不变，但是损失函数中去掉一致性损失，只保留生成对抗网络所共有的对抗损失，观察模型最终的生成结果；其二是保持损失函数的不变，去掉级联结构设计，生成器使用反卷积上采样，判别器使用跨步卷积进行下采样，观察模型最终的生成结果。

在“保持模型结构的不变，但是损失函数中去掉一致性损失，只保留生成对抗网络所共有的对抗损失，观察模型最终的生成结果”的实验中，去掉了生成器损失的

中的rec(·,·)，改为

的形式，并且保持判别器损失和模型中级联式的生成器结构不变。同样地使用梯度惩罚的模型优化策略，使用“清”字的训练集对上述模型进行训练，模型训练完成后的图像生成结果如图15所示。从图15可以看出，当去掉了模型中的一致性损失后，模型失去了“模式平均”的功能甚至不能完成基本字形的生成。这也说明了若只使用基本的生成对抗网络损失函数进行训练，这样的级联式模型是难以达到预期的效果的，猜测可能的原因是使用模型外的双线性插值对每一层生成的图像结果进行上采样丢弃了太多的网络内部信息，在没有一致性损失约束的情况下，这些信息不足以支撑模型完成生成任务。

在“保持损失函数的不变，去掉级联结构设计，生成器使用反卷积上采样，判别器使用跨步卷积进行下采样，观察模型最终的生成结果”的实验中，在DCGAN的基础上，增加了

的一致性损失。由于这样做使得模型不再具有级联的结构，因此生成器和判别器均只有一个，同时原先的一组生成器损失和一组判别器损失也相应修改为一个生成器损失和一个判别器损失。对于这个实验，选用了“清”、“马”、“到”、“成”和“功”数据集进行了测试。实验结果如图16所示。从图16的生成结果可以看出，使用DCGAN的基本结构，在其对抗损失上补充一致性损失后同其只使用对抗损失的差异并不大，同时增加了一致性损失的约束后，生成的结果与训练集样本中的图像差异进一步缩小，在这一数量的样本下，不足以支撑网络进行训练，很容易发生过拟合，使得最终的输出倾向于“复制”某一样本。

从上述两个实验可以得出如下的结论，若要实现“模式平均”这一功能，本发明所设计的模型结构和损失函数缺一不可。

为了进一步说明本发明的有益效果，选取了同样有级联结构的拉普拉斯生成对抗网络(LAPGAN)、使用梯度惩罚的深度卷积生成对抗网络(DCGAN with GP)、边界均衡生成对抗网络(BEGAN)和最小二乘生成对抗网络(LSGAN)来对比这些模型同本发明在图像生成方面的特点，以突出本发明在“模式平均”这一功能上的创新。

选取以上几种模型进行对比是因为这些模型在生成图像时都是只需要提供一个或是一组随机向量而不需要其他额外参数就可完成生成。但通常情况下这些模型都是在大数据集上进行训练的，本节将这些模型使用同“模式平均”生成器一样的小数据集(实验时使用25个输入模式)上，对比它们与本发明模型的差异。

本实施例的实验中选取“马到成功”这四个汉字，并且使用相同的训练集且对于本发明，设置各个输入模式的权重均为1。当模型训练完成后，对每个字进行5次生成，观察实验结果。图17是做不同模型间对比实验时所采用的训练集。图18是做不同模型间对比实验时得到的结果图，其中OURS为本发明。当对比生成结果和所使用的训练集可以发现除了本发明和BEGAN，其余的模型生成的结果都是接近某个具体的样本，甚至出现了过拟合，即生成结果几乎“复制”了训练集中的某个样本，以DCGAN生成的“到”字为例，关注图17和图18中标号的1～5，分别计算了这5个生成结果同训练集中对应与其最相似样本的SSIM值，其结果如表3所示。

对应编号	对应编号两图像的SSIM值
		1	0.9994
2	0.9992
		3	0.9974
4	0.9829
		5	0.9988

表3DCGAN所生成的“到”字同训练集中某一近似样本的SSIM值

可以看出普通生成对抗网络的训练目标是使模型的输出分布拟合训练集所表示的分布，此时在生成时的采样也会接近于某一个真实样本，从而“骗”过判别器。BEGAN在这一样本数量下虽然可以进行一定的图像平均，但就图像生成结果来看，远不如本发明，而且其生成结果在局部也无法表现出多样性。从实验结果也可以看出本发明提出的模型其生成结果没有过于接近某一个具体的样本，且使用不同的随机变量作为模型输入进行生成的结果在结构上基本保持了一致性，在笔画级别可以观察到不同(在本模型的生成结果中用方框标出)，这也表明了本发明的目标是生成一种平均样式，并且在这种样式上保留一定的变化。这种生成目标也是就本发明所提出的“模式平均”。表3中显示出的两对应样本间极高的SSIM值表明这些普通的生成对抗网络在这一任务中有“复制”训练样本的倾向。由于这些普通的生成对抗网络在训练过程中尝试去拟合整个训练集所对应的分布，这一目标在训练集足够大时是极好的，但是所给出的任务训练集较小，就极易形成过拟合的情况最终使得训练完的生成器并没有“创作”的能力，而本发明可以创作出一个同训练集中所有样本都不“十分”相似的新字体。

本发明的上述技术方案相比现有技术具有以下优点：本发明所述的基于平均模式生成对抗网络的书法字体创作方法通过构建级联式的生成器，没有在网络内部对特征图进行上采样而是对该层生成器具体生成的图像进行上采样并且作为下一层生成器的输入；通过生成对抗网络中模式平均的思想，构建生成器、判别器、生成器的损失函数和判别器的损失函数，使得在给定一些已有的书法字体样本的情况下，可以在生成这个字的新的字体或是变形的同时在局部表现出多样性、并且字形正确又清晰。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于平均模式生成对抗网络的书法字体创作方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤2中级联各层级的生成器后，每个层级包括随机噪声、生成器、上一级生成器的生成结果和双线性插值图像缩放，随机噪声通过生成器直接生成当前处理尺寸的图像，接着通过双线性插值图像缩放得到上采样的图像后作为下一层生成器的输入；

图像数据经过各层级的生成器后，最终的图像输出X_out为：

X_out＝G₅(z₅,br(G₄(z₄,br(G₃(z₃,br(G₂(z2,br(G₁(z₁)))))))))，

3.根据权利要求1所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤2中在每层级的生成器上连接对应尺寸的判别器，所述判别器为不带下采样的马尔可夫判别器，每层上的判别器的尺寸与所处层处理的特征图的尺寸相同，每层上的判别器在训练判别器所处的层级时被激活。

4.根据权利要求1所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤4中使用训练集对模式平均的图像生成对抗网络的初步模型进行训练，具体过程为：

步骤4.1：初始化第一层生成器G₁和判别器D₁的权重；

5.根据权利要求4所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤4.2中使用Adam优化器对第i层的生成器G_i和判别器D_i的权重进行预设次数的迭代优化时，对第1层～第i-1层的生成器G₁～G_i-1和判别器D₁～D_i-1的权重进行n次的迭代优化，对最后一层第i层的生成器G_i和判别器D_i的权重进行3n次的迭代优化，用于使模式平均的图像生成对抗网络模型稳定收敛；

6.根据权利要求1所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤2中按照各层级特征图的尺寸逐层构建对应尺寸的生成器和判别器，其中每层生成器的结构包括输入的随机噪声、线性插值后的上一层生成结果、卷积模块、纯卷积层和使用tanh作为激活函数的激活层，随机噪声和线性插值后的上一层生成结果加和后依次输入卷积模块、纯卷积层和使用tanh作为激活函数的激活层，输出结果和线性插值后的上一层生成结果加和作为生成器的输出；所述卷积模块包括输入特征图，一个卷积核为3×3、跨度为1、通道为d的卷积层，一个批规范化层和一个使用Leaky ReLU作为激活函数的激活层；

每层级的生成器对数据的处理过程为：

其中

7.根据权利要求1所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤2中按照各层级特征图的尺寸逐层构建对应尺寸的生成器和判别器，其中每层判别器的结构包括用于接受来自生成器生成的图像或是真实数据集的图像的输入层、连续的四个卷积模块和一个纯卷积层；

判别器的输出值R的计算公式为：

其中F(i,j)为特征图，特征图的尺寸为h×w×1。

8.根据权利要求1所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤3中生成器的损失函数LossG_i的计算公式为：

其中LossG_i为第i级生成器的生成损失，

对于单幅图像

和x∈X_i而言，一致性损失函数

的计算公式为：

其中

是生成的图像与真实图像的均方差损失，计算公式为

是生成图像和真实图像的边缘结构性损失，计算公式为

9.根据权利要求1所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤3中判别器的损失函数LossD_i的计算公式为：

表示第i级生成的假图像；GP(·,·)为梯度惩罚。

10.根据权利要求1-9任一项所述的基于平均模式生成对抗网络的书法字体创作方法，其特征在于：所述步骤5中选取汉字的不同字体样本输入训练完成的模式平均的图像生成对抗网络模型中时，模式平均的图像生成对抗网络模型中的超参数噪声放大率的取值范围为[0.10,0.15]，超参数学习率的取值范围为[0.00010,0.00015]，超参数输入模式数量的取值范围为[10,25]。