CN113837366A

CN113837366A - 一种多风格字体生成方法

Info

Publication number: CN113837366A
Application number: CN202111111186.4A
Authority: CN
Inventors: 徐向纮; 李金金
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-24

Abstract

本发明提出了一种基于StarGAN改进的多种风格字体生成方法，将由编码层、转换层和解码层的原始生成器网络结构替换为由Attention U‑NET和DenseNet两种特殊结构相结合，解决直接卷积操作会丢失文字笔画信息的问题。同时Attention U‑NET中的U型结构和跳跃连接可以有效的集成图像的细节和语义特征，网络的注意力机制可以解决现有模型在字体生成过程出现的局部信息丢失或冗余问题，降低生成汉字的像素错误率。该方法不仅不需要配对的数据集，而且只需要训练一种模型就可以直接实现多种字体风格的自动生成。本发明解决了汉字识别中数据集的缺失，提高字体识别的准确性，同时也为小样本领域以及数据迁移领域数量不足创造了条件。

Description

一种多风格字体生成方法

技术领域

本发明属于计算机图形处理技术领域，尤其涉及生成对抗网络的图像生成技术领域，具体涉及一种基于StarGAN改进的多种风格字体生成方法。

背景技术

中国汉字字体数量庞大，结构复杂，每种字体的风格更是千差万别，设计统一风格的字体往往需要消耗大量的人力物力，因此，汉字的生成和字体风格的转换成为了近年来研究的热点问题。

中国书法历史悠久，书法艺术已成为中国传统文化的一项瑰宝，对于很多书法爱好者来说，收藏自己喜爱的书法家真品或者临摹喜爱的书法家风格的字体，已成为一种乐趣。当得不到他们喜爱的书法家真品以及临摹效果不好时，多风格汉字生成是解决多种书法字体生成潜在的一种重要途径。

字体识别（ Optical Font Recognition ）的目标是识别给定文本图像的字体，是自动文档分析和处理中一个重要且具有挑战性的主题，识别手写体或艺术字体的难度远大于识别印刷体，因为极其丰富的展现形式，每个人都写不同风格的文字。而一些手写字体和艺术字体的数据集也难以大量收集，导致字体识别的准确率不高。

生成式对抗网络模型（GAN）是基于深度学习的一种强大的生成模型，给解决汉字字体生成技术提供了新的研究角度和可行方案。自生成式对抗网络被提出来以后，越来越受到学术界和工业界的重视，不同于以往的生成模型，GANs 通过对抗训练来不断地拟合已有样本数据的分布，直至能够生成以假乱真的样本。这与汉字字体的生成过程相似，所以越来越多的研究者使用生成对抗网络来实现汉字字体生成算法并应用于数据增强。

发明内容

为了解决了汉字识别中数据集的缺失，提高字体识别的准确性，同时也为小样本领域以及数据迁移领域数量不足创造了条件。本发明提供了一种基于StarGAN 改进的多种风格字体生成方法，通过训练单个模型，学习多个字体域之间的映射，在数据集未配对的情况下一次性实现多种汉字风格的自动生成。

本发明解决其技术问题是通过以下技术方案实现的：

一种基于StarGAN 改进的多种风格字体生成方法，包括以下步骤：

步骤一：构建数据集，源字体数据集和目标字体数据集准备，并对每个数据集制定目标域标签；

步骤二：构建生成对抗式网络，采用Attention U-NET和DenseNet两种特殊结构相结合作为生成器，判别器采用训练构并添加一个辅助分类器来提高GAN的性能，同时输出真假和类别；

步骤三：构建模型的损失函数，利用印刷体字体图片、目标字体图片数据集依次输入到基于StarGAN改进的网络训练模型中，对模型进行训练、优化和调参，得到符合要求的多风格字体生成网络；

步骤四：将完整的印刷字体图片与目标域标签结合输入到训练后的生成网络中，由训练后的网络模型输出GB2312字库中相对应完整的目标字体；

步骤五：对生成的目标字体图片进行质量评估，构建模型评级体系。

进一步的，步骤1中选取最常用的印刷体作为源字体，通过PC端自带的汉字字体文件数据ttf，采用PIL（Python Image Library）来生成字体图片，根据收集到的常用汉字来批量的提取照片。选取中文手写数据库中的手写汉字图像和一些常见的网络艺术字体构成目标字体数据集，取最常用的670个汉字。并且将数据集中的字体图片大小调整为255*255。在步骤4中，将完整的印刷字体图片输入到训练好的网络模型中，即可得到GB2312中完整的6763个目标风格字体。

进一步的，在步骤2中，采用Attention U-Net和DenseNet相结合的结构作为生成器，首先在U-Net模型的编码部分引入DenseNet网络结构，在借鉴跳跃连接的基础上建立不同层之间的连接关系，降低特征提取时的网络参数复杂度。将归一化后源字体图像经过编码器，由卷积核为3×3四部分Dense block提取相关字体特征，其中密集连接层的激活函数均采用修正线性单元ReLU,接着将每层的前后特征层特征图进行合并并重复利用。密集连接层后均有一层平移不变性的2×2最大下采样层（max pooling）以整合Dense block提取的字体特征；其次，在解码部分引入软注意模型，Attention U-NET是一种带有SoftAttention的U-Net结构，通过深层feature监督浅层feature实现Attention机制。为捕获足够多的字体特征图信息，在卷积神经网络体系中对特征映射网络进行上采样，AttentionGate添加到跳跃连接中，并且输出在上采样中添加到特征图。因此，Attention Gate的输入之一是跳跃连接中的输入，为相应层中下采样的特征图，而另一个输入是上采样中的上一层的特征图。Attention Gate模型在不相关的背景区中会逐渐抑制特征响应，而不需要在网络之间裁剪感兴趣区域(ROI)，进而降低算法的计算复杂度，解决传统U-Net卷积网络对特征图“注意力分散”的现象。

所述判别器网络由6层卷积网络和2层全连接层网络组成，每一层卷积网络包含一个卷积层和一个Leaky-Relu激活函数。2个全连接层网络一个用于判断生成字体图片的真假性，另一个用于对字体图像的风格进行分类，使判别器同时具有判断和分类的功能。

所述模型先训练生成器G将输入字体图像x转换成目标域，将目标域标签记为c，G （x,c）

y输出字体图像y。随机生成目标域标签c，让G更好的学习转换输入字体图像。另外，辅助分类器允许单个判别器控制多个域，判别器主要学习源域和目标域的标签分布，记为 D:x

{

(x),

(x)}。

为判断字体图片的真实性，引入双对抗损失定义式：

生成器G通过输入源字体图像x和目标域标签c而输出目标字体图像，判别器D对生成的图片进行真假判断。此时生成器要最小化目标，而判别器要最大化目标。

判别器D上添加一个辅助分类器，在优化D和G的同时考虑优化判别器对真实字体的域分类损失。即用于优化D对真实字体图像的域分类损失和优化G对伪造字体图像的域分类损失。前者定义式：

最小化此目标函数，判别器D能正确分类真实字体图像x属于源域标签

。

伪造字体图像的域分类的损失函数定义式：

G 试图最小化该目标，并能正确分类生成字体图像属于目标域c。

为了保证转换的字体图像能够保留输入源字体图像的内容，引入循环一致性损失，定义式：

采用

范数作为重构损失。这里使用单个生成器两次，首先将原始字体图像转换为目标域中的字体图像，然后从转换后的字体图像重构原始字体图像。

最后优化生成器和判别器的目标函数，记为公式如下：

和

是超参数，控制域分类和循环一致性损失的相对性。

更进一步的，步骤3中使用Adam梯度下降算法更新网络模型的权重和偏移。

进一步的，在步骤5中，对生成的字体图像从主观角度和客观角度进行分析。人的视觉感知是一项较为主观的评价指标，通过打分的方式进行评估，具体设置为：1分表示糟糕；2分表示较差；3分表示良好；四分表示很好。对生成图像质量作出的客观评价，主要通过以下指标：

结构相似度指标（SSIM），公式：

SSIM 是一种测量图像失真的方法，该数值越高说明图像越清晰。其中

,

是xy 的像素平均值，

,

分别对应了x和y的方差，

为x，y的协方差。

是两个动态超参数。

均方根误差 (Root Mean Square Error, RMSE)，公式：

RMSE是常见的用于衡量生成图像结果的评价指标，通过逐像素地比较生成图像和真实图像之间的差异性来评价图像质量的好坏，RMSE 值越低，表示图像质量越高，反映模型的生成能力越好。

平均梯度（Average Gradient）公式：

Average Gradient 描述一幅图像的梯度图上所有点的均值，反映图像的清晰度。一般来说平均梯度越大，图像就越清晰，用于评价生成的视觉效果。

时间效率和所用数据集规模的大小在实际应用中也是至关重要的，它涉及到字体渲染的成本问题。

使用本发明涉及的一种基于StarGAN改进的多种风格字体生成方法，可以实现如下的技术效果：

由于汉字识别中一些数据集样本不足且不平衡，特别是对手写体和艺术字体的识别，通过对StarGAN的改进，将模型的生成器转换为Attention U-Net，提高了手写体以及艺术字体的汉字图像质量。同时增加DenseNet网络结构，可以建立模型与模型之间的密集连接，当碰到复杂字体和汉字时，在生成汉字的过程中能保留等多更复杂的结构和位置信息，在一定程度上也可以减轻网络模型对大规模数据集的依赖。

附图说明

图1为本发明基于StarGAN 改进的多种风格字体生成方法的整体流程结构图；

图2为本发明Attention Cate的结构示意图；

图3为本发明DenseBlock的结构示意图；

图4为本发明模型的整体框架示意图。

具体实施方式

下面结合附图对本发明具体实施做进一步详细描述。

如图1所示，基于StarGAN改进的多种风格字体生成方法，包括以下步骤：

首先选取最常用的印刷体作为源字体，通过PC端自带的汉字字体文件数据ttf，采用PIL（Python Image Library）来生成字体图片；选取中文手写数据库中的手写汉字图像和一些常见的网络艺术字体构成目标字体数据集，取最常用的670个汉字。数据集中的字体图片大小调整为255*255。将目标字体风格标签用one-hot编码规则进行编码，然后将源字体图像和目标字体风格标签同时送入生成器G中，生成对应目标风格的字体图片。

构建基于StarGAN改进的网络模型，采用Attention U-Net和DenseNet两种特殊结构相结合作为生成器。在U-Net模型的编码部分引入DenseNet网络结构，如图3所示，它是一种具有紧密连接性质的卷积神经网络，该神经网络中每一层的输入都是前面所有层的输出，而这一层学习到的特征也会被直接传递到后面的所有层作为输入。这一特点使复杂的字体特征的极致利用达到更好的效果和更少的参数，解决了网络过深产生的梯度消失问题。当输入源字体图像经过编码器，由卷积核为3*3四部分Dense block提取相关字体特征，其中密集连接层的激活函数均采用修正线性单元ReLU,接着将每层的前后特征层特征图进行合并并重复利用。密集连接层后均有一层平移不变性的2*2最大下采样层（max pooling）以整合Dense block提取的字体特征。

解码部分引入Attention Gate模型，如图2所示，通俗来看就是使用下采样层同层的特征图和上采样层上一层的特征图进行一个pixel权重图的构建，然后再把这个权重图对下采样层同层的特征图进行处理，得到进行权重加权的特征图，公式表达式为：

式中，

为下采样层同层的特征图，进行1*1*1卷积运算得到

；

为上采样层上一层的特征图，进行1*1*1卷积运算得到

;将上两步得到的特征图相加后再进行 ReLu得到

，

为ReLu激活函数，之后使用1*1*1卷积运算得到

；最后对

进行sigmoid激活函数得到最终的注意力系数

。

Attention Gate添加到跳跃连接中，并且输出在上采样中添加到特征图。因此，Attention Gate的输入之一是跳跃连接中的输入，为相应层中下采样的特征图，而另一个输入是上采样中的上一层的特征图。

判别器网络由6层卷积网络和2层全连接层网络组成，每一层卷积网络包含一个卷积层和一个Leaky-Relu激活函数。2个全连接层网络一个用于判断生成字体图片的真假性，另一个用于对字体图像的风格进行分类，使判别器同时具有判断和分类的功能。

训练判别器，将真实图片与生成器生成的图片同时输入，让判别器区分真实图片和生成器生成的伪造图片，并且还需要识别出该图片的具体标签。

训练生成器，将源域字体图像转换为目标域字体，如图4所示，源域字体图像要与目标域标签同时输入到生成器G中，生成出对应目标域的字体图像；之后为了保证转换的字体图像能保留其输入字体图像的内容，还要将生成器生成出的图像重构成源域的图像，将生成器生成的图像与源域字体图像的标签同时输入到一个生成器G中，把重构图像与源域字体图像比较，使它们之间的差距越来越小。

最后生成器生成的图像要通过判别器判断真假并且还需判断该字体图片对应的标签是不是目标域标签。

为了保证我们能够得到一个理想的实验结果，通过损失函数来优化我们的网络参数：

保证字体图片的真实性，引入双对抗损失定义式：

优化D对真实字体图像的域分类损失定义式：

伪造字体图像的域分类的损失函数定义式：

使转换的字体图像能够保留输入源字体图像的内容，引入循环一致性损失定义式：

最后优化生成器和判别器的目标函数公式为：

和

是超参数，控制域分类和循环一致性损失的相对性。

基于StarGAN改进的网络模型使用Adam梯度下降算法更新网络模型的权重和偏移。

最后，将完整的印刷字体图片与目标域标签结合输入到训练后的生成网络中，由训练后的网络模型输出GB2312字库中相对应标签的完整的目标字体；之后再对生成的字体图像质量从主观和客观角度进行指标评估，确保此多风格字体生成的方法取得较好的结果。

Claims

1.一种基于StarGAN 改进的多种风格字体生成方法，其特征是，包括以下步骤：

2.根据权利要求1所述的基于StarGAN 改进的多种风格字体生成方法，其特征在于，选取最常用的印刷体作为源字体，通过PC端自带的汉字字体文件数据ttf，采用PIL（PythonImage Library）来生成字体图片，根据收集到的常用汉字来批量的提取照片，选取中文手写数据库中的手写汉字图像和一些常见的网络艺术字体构成目标字体数据集，取最常用的670个汉字，并且将数据集中的字体图片大小调整为255*255；在步骤4中，将完整的印刷字体图片输入到训练好的网络模型中，即可得到GB2312中完整的6763个目标风格字体。

3.根据权利要求1所述的基于StarGAN 改进的多种风格字体生成方法，其特征在于，采用Attention U-Net和DenseNet相结合的结构作为生成器，首先在U-Net模型的编码部分引入DenseNet网络结构，在借鉴跳跃连接的基础上建立不同层之间的连接关系，降低特征提取时的网络参数复杂度，将归一化后源字体图像经过编码器，由卷积核为3×3四部分Denseblock提取相关字体特征，其中密集连接层的激活函数均采用修正线性单元ReLU,接着将每层的前后特征层特征图进行合并并重复利用，密集连接层后均有一层平移不变性的2×2最大下采样层（max pooling）以整合Dense block提取的字体特征；其次，在解码部分引入软注意模型，Attention U-NET是一种带有Soft Attention的U-Net结构，通过深层feature监督浅层feature实现Attention机制，为捕获足够多的字体特征图信息，在卷积神经网络体系中对特征映射网络进行上采样，Attention Gate添加到跳跃连接中，并且输出在上采样中添加到特征图，因此，Attention Gate的输入之一是跳跃连接中的输入，为相应层中下采样的特征图，而另一个输入是上采样中的上一层的特征图，Attention Gate模型在不相关的背景区中会逐渐抑制特征响应，而不需要在网络之间裁剪感兴趣区域(ROI)，进而降低算法的计算复杂度，解决传统U-Net卷积网络对特征图“注意力分散”的现象，所述判别器网络由6层卷积网络和2层全连接层网络组成，每一层卷积网络包含一个卷积层和一个Leaky-Relu激活函数，2个全连接层网络一个用于判断生成字体图片的真假性，另一个用于对字体图像的风格进行分类，使判别器同时具有判断和分类的功能。

4.根据权利要求3所述的基于StarGAN 改进的多种风格字体生成方法，其特征在于，所述模型先训练生成器G将输入字体图像x转换成目标域，输出字体图像y，随机生成目标域标签c，让G更好的学习转换输入字体图像，另外，辅助分类器允许单个判别器控制多个域，判别器主要学习源域和目标域的标签分布，为判断字体图片的真实性，引入双对抗损失定义式如下：

生成器G通过输入源字体图像x和目标域标签c而输出目标字体图像，判别器D对生成的图片进行真假判断，此时生成器要最小化目标，而判别器要最大化目标，

判别器D上添加一个辅助分类器，在优化D和G的同时考虑优化判别器对真实字体的域分类损失，即用于优化D对真实字体图像的域分类损失和优化G对伪造字体图像的域分类损失，前者定义式如下：

，伪造字体图像的域分类的损失函数定义式如下：

G 试图最小化该目标，并能正确分类生成字体图像属于目标域c，为了保证转换的字体图像能够保留输入源字体图像的内容，引入循环一致性损失，定义式如下：

采用

范数作为重构损失，这里使用单个生成器两次，首先将原始字体图像转换为目标域中的字体图像，然后从转换后的字体图像重构原始字体图像，最后优化生成器和判别器的目标函数，记为公式如下：

和

是超参数，控制域分类和循环一致性损失的相对性。

5.根据权利要求1所述的基于StarGAN 改进的多种风格字体生成方法，其特征在于，使用Adam梯度下降算法更新网络模型的权重和偏移。

6.根据权利要求1所述的基于StarGAN 改进的多种风格字体生成方法，其特征在于，对生成的字体图像从主观角度和客观角度进行分析，人的视觉感知是一项较为主观的评价指标，通过打分的方式进行评估，具体设置为：1分表示糟糕；2分表示较差；3分表示良好；四分表示很好，对生成图像质量作出的客观评价，主要通过以下指标：

结构相似度指标（SSIM），公式如下：