CN110503598B

CN110503598B - 基于条件循环一致性生成对抗网络的字体风格迁移方法

Info

Publication number: CN110503598B
Application number: CN201910696105.8A
Authority: CN
Inventors: 缪亚林; 贾欢欢; 唐开勖; 张阳; 刘学敏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-09-16
Anticipated expiration: 2039-07-30
Also published as: CN110503598A

Abstract

本发明公开了基于条件循环一致性生成对抗网络的字体风格迁移方法，具体为：创建源字体和目标字体数据集，随数据集进行归一化处理；搭建字体风格迁移网络结构，网络由基于条件生成对抗网络和残差网络的生成器和基于PatchGAN的判别网络组成，将源字体和标签图片输入到生成器中，生成目标风格字体字体；判别器网络对生成目标字体和与之对应的真实目标字体进行真伪判别，借助对抗网络训练的思想，对汉字迁移网络进行优化，实现两种字体风格的互相映射迁移，字体生成过程减少人工干涉，提高生成字体的自动化程度。

Description

基于条件循环一致性生成对抗网络的字体风格迁移方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于条件循环一致性生成对抗网络的字体风格迁移方法。

背景技术

目前在英文和阿拉伯字符的字体生成方面有很多的研究，然而在汉字字体生成领域探究很少，这是因为汉字结构复杂、数量庞大、种类多样、笔画繁多的特点，为汉字字体生成研究带来了挑战。汉字字库显示我国有出处汉字九万多个，我国汉字代码标准GB2312包含 6763个常用汉字码。随着互联网媒体的快速兴起，人们在社交、办公中会接触到各种各样的字体，人们对多风格个性化的汉字字体应用需求增加，然而目前的汉字字体制作周期长、效率低下，汉字字库制作依赖人工经验和设计，制作技术自动化程度低。

对于字形迁移的早期研究主要将字体的骨架内容和风格样式进行分离，进而对两种字体的骨架进行变形和匹配，将风格样式的特征提取出来映射到变形后的骨架，生成风格字体，然而骨架变形算法较为复杂，生成字体的效率较低。后来提出对汉字字符笔画进行分解，将两种字体的笔画进行映射配对，用匹配的笔画重组风格字体，然而这种方法笔画分解重组过程较为繁琐，受先验知识的影响很大。

近年来，深度学习在图像迁移、目标检测、自然语言处理等领域得到广泛应用，利用神经网络进行图像风格转换取得了很好的效果，通过使用大量的图像来训练可生成风格化图像的生成模型，很大程度上解决了图像风格迁移的计算效率低下的问题。受此启发，将图像风格迁移方法应用到字体风格迁移中，将每个汉字字符处理为一个汉字图片，通过卷积神经网络提取图片特征，生成风格字体，字体制作过程减少人工干涉，提高生成字体的自动化程度和字体生成效率。

发明内容

本发明的目的是提供一种基于条件循环一致性生成对抗网络的字体风格迁移方法，通过迁移网络和循环一致地对抗训练，提升了生成字体图像的质量和训练学习的速率。

本发明所采用的技术方案是，基于条件循环一致性生成对抗网络的字体风格迁移方法，具体按照以下步骤实施：

步骤1，创建字体样本数据集，确定出相关的源字体样本和目标字体样本，对样本数据集进行预处理，选择出相应的训练集和测试集；

步骤2，搭建生成网络模型，生成网络模型由编码器、残差块、解码器组成，生成网络模型的输入层包括源字体图片和标签字体图片，将目标字体图片作为标签字体图片；生成网络模型的输出层为目标字体图片；

步骤3，搭建判别网络模型，判别器的输入为步骤2中生成的风格字体图片以及源目标字体图片，判别器对生成的字体图片和与之对应的目标字体图片做真假判别；

步骤4，搭建整体网络模型，将源字体域作为X域，目标字体域作为Y域，整体网络模型由两个生成器G_X2Y和G_Y2X与两个判别器D_X和D_Y组成，构成了一种双向环状结构，实现了两种不同风格字体之间的相互转换；

步骤5，构造损失函数，条件循环一致性损失函数同时学习两个生成器G_X2Y和G_Y2X的映射，实现G_Y2X(G_X2Y(x|L_y))≈x和 G_X2Y(G_Y2X(y|L_x))≈y；条件对抗损失函数使生成域图像的分布和源域图像点的数据分布相匹配；

步骤6，利用3000对源-目标字体图片数据集对条件循环一致性生成对抗网络进行训练，得到训练后的字体风格迁移模型；通过剩余的字体图片对模型进行测试，检验模型的生成效果；

步骤7，进行字体风格转换，将源字体图片输入到字体风格迁移网络中，输出相应风格模型下的目标风格字体图片。

本发明的特点还在于，

步骤1中，具体步骤如下：

步骤1.1，对TrueType字库进行处理来构建样本数据集，将其处理为GB2312所对应的样本字体图片；

步骤1.2，对样本字体图片做归一化处理和降噪处理，每种样本字体图片都预处理为64*64大小的png格式的灰度图像；

步骤1.3，选择标准的印刷体宋体作为源字体图片，其余的字体作为目标字体图片；

步骤1.4，选择每种字体中的3000个字符图片作为训练集，其余字符图片作为测试集。

步骤2中，生成网络模型的搭建步骤如下：

第一层卷积模块，输入为源字体图片和标签字体图片，输出尺度为1*256*256*64，卷积核大小为7*7，步长为1，BatchNorm批量标准化，Relu激活函数；

第二层卷积模块，输入第一层的输出特征，输出尺度为 1*128*128*128，卷积核大小为3*3，步长为2，BatchNorm批量标准化，Relu激活函数；

第三层卷积模块，输入第二层的输出特征，输出尺度为 1*64*64*256，卷积核大小为3*3，步长为2，BatchNorm批量标准化， Relu激活函数；

第三层的输出特征依次输入到9个残差块中，输出尺度为 1*64*64*256，卷积核大小为3*3，步长为2；

第一层反卷积模块输入残差块的输出特征，输出尺度为 1*128*128*128，卷积核大小为3*3，步长为2，BatchNorm批量标准化，Relu激活函数；

第二层反卷积模块输入第一层反卷积模块的输出特征，输出尺度为1*256*256*64，卷积核大小为3*3，步长为2，BatchNorm批量标准化，Relu激活函数；

最后一层为卷积模块，输入第二层反卷积模块的输出特征，输出尺度为1*256*256*3，卷积和大小为7*7，步长为1，通过Tanh激活函数得到目标字体图片的输出。

步骤3中，判别网络模型的搭建步骤包括：

第一层卷积模块，输入为目标风格字体图片和源目标字体图片，输出尺度为1*128*128*64，卷积核大小为4*4，步长为2；

第二层卷积模块输入第一层的输出特征，输出尺度为 1*64*64*128，卷积核大小为4*4，步长为2，BatchNorm批量标准化， Lrelu激活函数；

第三层卷积模块输入第二层的输出特征，输出尺度为 1*32*32*256，卷积核大小为4*4，步长为2，BatchNorm批量标准化， Lrelu激活函数；

第四层卷积模块输入第三层的输出特征，输出尺度为 1*32*32*512，卷积核大小为4*4，步长为1，BatchNorm批量标准化， Lrelu激活函数；

最后一层卷积模块输入第四层的输出特征，输出尺度为 1*32*32*1，卷积核大小为4*4，步长为1，通过Sigmoid激活函数输出判别结果。

步骤4中，整体网络模型的搭建步骤包括：

整体网络模型为两个环状的的图像循环生成结构，首先将源域样本映射到目标域，然后再映射回源域得到二次生成图像，分别为X域 -Y域-X域和Y域-X域-Y域两个环状结构，实现两种风格的字体互相生成；

X域-Y域-X域：将源字体图片X和标签字体图片Y输入到生成器G_X2Y中，通过迁移网络生成Y字体图片，即G_X2Y(x|L_y)；再将生成字体图片和标签字体图片X输入到生成器G_Y2X中，通过迁移网络再次生成字体图片X，即G_Y2X(G_X2Y(x|L_y))；判别器D_Y对真实字体图片Y 和生成字体图片G_X2Y(x|L_y)进行真伪判别，判别器D_X对真实字体图片 X和生成字体图片G_Y2X(G_X2Y(x|L_y))进行真伪判别；

Y域-X域-Y域：将目标字体图片Y和标签字体图片X输入到生成器G_Y2X中，通过迁移网络生成字体图片X，即G_Y2X(y|L_x)；再将生成字体图片和标签字体图片Y输入到生成器G_X2Y中，通过迁移网络再次生成字体图片Y，即G_X2Y(G_Y2X(y|L_x))；判别器D_Y对真实字体图片X和生成字体图片G_Y2X(y|L_x)进行真伪判别，判别器D_Y对真实字体图片Y和生成字体图片G_X2Y(G_Y2X(y|L_x))进行真伪判别。

步骤5中，损失函数具体包括：

用均方误差损失函数计算对抗损失，稳定模型的训练的过程；对抗损失的目标函数在原始GAN基础进行改进，X域-Y域映射损失函数为生成器G_X2Y和判别器D_Y所对应的目标函数，如式(1)所示；

式(1)中，E_x～Pdata(x)表示真实数据x的数学期望；E_y～Pdata(y)表示生成数据y的数学期望；

Y域-X域映射损失函数为生成器G_Y2X和判别器D_X所对应的目标函数，如式(2)所示；

L_GAN(G_Y2X,D_X,X,Y)＝E_x～Pdata(x)[(D_X(x)-1)²]+E_y～Pdata(y)[(1-D_X(G_Y2X(y|L_x)))²] (2)；

条件循环一致性损失函数使用L₁范数进行计算，保持两个生成式模型G_X2Y和G_Y2X之间的一致性，如式(3)所示；

条件循环一致性生成对抗网络的总损失函数对上面的目标函数进行加和处理，如式(4)所示；

L(G_X2Y,G_Y2X,D_X,D_Y)＝L_GAN(G_X2Y,D_Y,X,Y)+L_GAN(G_Y2X,D_Y,X,Y)+λL_cyc(G_X2Y,G_Y2X)

(4)；

其中，λ表示条件对抗损失和条件循环一致性损失之间的权重参数；

对总的目标函数进行最大最小优化，如式(5)所示；

其中，G_X2Y*和G_Y2X*表示对两个生成网络求出近似最优解。

步骤6中，训练测试数据为由源字体图片和目标字体图片组成，

模型输入图片的尺寸为256*256，迭代次数为200；将损失函数的权重设置为λ＝10；训练过程中使用Adma优化算法进行网络参数的优化，找到能够使网络性能最优的参数，并且在参数不断调整的过程中，以 1:1的比例交替优化生成器和判别器，且两个网络模型的学习率均设置为0.0002。

本发明的有益效果是：

本发明将条件生成对抗网络和循环一致性生成对抗网络相结合，将每个汉字字符视为一张图片，对网络的输入层加入条件，通过迁移网络和循环一致地对抗训练，提升生成字体图像的质量和训练学习的速率，增强生成字体轮廓的清晰度和字体风格样式的准确性。实现使用较少的样本训练，无需人工干涉，直接将一种汉字字体转化为其他风格的字体，简化字体生成过程，增强字体的生成效果。

附图说明

图1是本发明基于条件循环一致性生成对抗网络的字体风格迁移方法的流程图；

图2是本发明基于条件循环一致性生成对抗网络的字体风格迁移方法中的生成网络模型图；

图3是本发明基于条件循环一致性生成对抗网络的字体风格迁移方法中的判别网络模型图；

图4是本发明基于条件循环一致性生成对抗网络的字体风格迁移方法中的整体网络模型结构图；

图5是本发明基于条件循环一致性生成对抗网络的字体风格迁移方法中的模型生成效果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提出了一种基于条件循环一致性生成对抗网络的字体风格迁移方法。将字体文件处理为字体图片，将源字体和标签图片输入到生成网络中，生成网络对字体内容特征和风格特征进行提取和结合，生成目标字体；判别器网络对生成目标字体和与之对应的真实目标字体进行真伪判别，借助对抗网络训练的思想，对汉字迁移网络中的参数进行优化。从而通过训练少量的汉字字符，实现端到端的两种字体风格的互相映射迁移。

本发明一种基于条件循环一致性生成对抗网络的字体风格迁移方法，如图1所示，具体按照以下步骤实施：

步骤1，创建字体样本数据集，确定出相关的源字体样本和目标字体样本，对样本数据集进行预处理，选择出相应的训练集和测试集；具体步骤如下：

步骤1.1，对TrueType字库(ttf字体文件)进行处理来构建样本数据集，将其处理为GB2312所对应的样本字体图片；

步骤1.4，选择每种字体中的3000个字符图片作为训练集，其余字符图片作为测试集；

步骤2，搭建生成网络模型，将条件生成对抗网络的思想应用到生成器模型中，生成网络模型由编码器、残差块、解码器组成，生成网络模型的输入层包括源字体图片和标签字体图片，将预期的目标图片作为标签字体图片；生成网络模型的输出层为目标风格字体图片；

生成网络结构借鉴了CGAN的思想，在网络的输入层将目标字体作为标签信息和源字体一同送入编码器，编码器由3个卷积层、 BatchNorm批量标准化和Relu激活函数组成，池化层采用最大池化，编码器提取字体图像的内容和风格特征；转换模块由9个残差块构成，残差块加强了特征在各个层之间的的传递，更有效地利用特征，因此选择残差块作为转换模块，每个残差块包含两个卷积层，两个批处理标准化和Relu激活函数构成，转换网络通过组合图像的不相近特征，将图像在X域中的特征向量转换为Y域中的特征向量；解码器包括两个反卷积层BatchNorm批量标准化和Relu激活函数，最后一个卷积层使用Tanh激活函数输出生成的风格字体图像。残差块作为转换网络，将目标图像的特征送到反卷积网络，反卷积网络将特征向量还原为图像，生成目标字体；

如图2所示，生成网络模型的搭建步骤如下，

第三层的输出特征依次输入到9个残差块中，输出尺度为1*64*64*256，卷积核大小为3*3，步长为2；

最后一层为卷积模块，输入第二层反卷积模块的输出特征，输出尺度为1*256*256*3，卷积和大小为7*7，步长为1，通过Tanh激活函数得到目标风格字体图片的输出；

步骤3，搭建判别网络模型，将马尔科夫判别器思想应用到判别器网络中，判别器的输入为步骤2中生成的风格字体图片以及源目标字体图片，判别器对生成的字体图片和与之对应的目标字体图片做真假判别，借助对抗网络训练的思想，对汉字迁移网络进行优化；

判别网络模型结合了卷积网络的层级特性，由5个卷积层、 BatchNorm批量标准化、Lrelu激活函数组成，判别器借鉴了PatchGAN 的思想，不是以整个图像作为输入，对一张图片切割成不同的N x N 大小的patch，判别器对每一个patch做真假判别，将一张图片所有 patch的结果取平均作为最终的判别器输出。当N＝1的时候，相当于逐像素进行，当N＝256(图像大小为256)，就是一幅图像的操作，当N＝70的时候，效果最好，选择分割尺寸N为70。通过逐次叠加的卷积层最终输出判别结果。

如图3所示，判别网络模型的搭建步骤包括：

第二层卷积模块输入第一层的输出特征，输出尺度为 1*64*64*128，卷积核大小为4*4，步长为2，BatchNorm批量标准化，Lrelu激活函数；

第四层卷积模块输入第三层的输出特征，输出尺度为1*32*32*512，卷积核大小为4*4，步长为1，BatchNorm批量标准化， Lrelu激活函数；

最后一层卷积模块输入第四层的输出特征，输出尺度为 1*32*32*1，卷积核大小为4*4，步长为1，通过Sigmoid激活函数输出判别结果；

步骤4，搭建整体网络模型，将循环一致性生成对抗网络思想应用到整体网络模型中，将源字体域作为X域，目标字体域作为Y域，整体网络模型由两个生成器G_X2Y和G_Y2X与两个判别器D_X和D_Y组成，构成了一种双向环状结构，实现了两种不同风格字体之间的相互转换；

如图4所示，整体网络模型的搭建步骤包括：

X域-Y域-X域：将源字体X和标签字体Y输入到生成器G_X2Y中，通过迁移网络生成Y字体，即G_X2Y(x|L_y)；再将生成字体和标签字体X输入到生成器G_Y2X中，通过迁移网络再次生成字体X，即G_Y2X(G_X2Y(x|L_y))。判别器D_Y对真实字体Y和生成字体G_X2Y(x|L_y)进行真伪判别，判别器D_X对真实字体X和生成字体G_Y2X(G_X2Y(x|L_y))进行真伪判别。

Y域-X域-Y域：将目标字体Y和标签字体X输入到生成器G_Y2X中，通过迁移网络生成字体X，即G_Y2X(y|L_x)；再将生成字体和标签字体Y输入到生成器G_X2Y中，通过迁移网络再次生成字体Y，即 G_X2Y(G_Y2X(y|L_x))。判别器D_Y对真实字体X和生成字体G_Y2X(y|L_x)进行真伪判别，判别器D_Y对真实字体Y和生成字体G_X2Y(G_Y2X(y|L_x))进行真伪判别。

步骤5，构造损失函数，网络模型同时学习两个生成器G_X2Y和 G_Y2X的映射，实现G_Y2X(G_X2Y(x|L_y))≈x和G_X2Y(G_Y2X(y|L_x))≈y，从而定义条件循环一致性损失函数；判别器需要准确判断哪个是生成数据哪个是真实数据，生成器则尽可能模仿真实数据去欺骗判别器，从而定义条件对抗损失函数，使生成域图像的分布和源域图像点的数据分布相匹配，从而不断优化字体迁移模块，使之能输出更逼真的目标字体；

损失函数具体包括：

用均方误差损失函数计算对抗损失，稳定模型的训练的过程。对抗损失的目标函数在原始GAN基础进行改进，X域-Y域映射损失函数为生成器G_X2Y和判别器D_Y所对应的目标函数，如式(1)所示；

条件循环一致性损失函数使用L₁范数进行计算，能更好地生成字体地细节，保持两个生成式模型G_X2Y和G_Y2X之间的一致性，如式(3) 所示；

条件循环一致性生成对抗网络的总损失函数对以上目标函数进行加和处理，如式(4)所示；

(4)；

其中，λ表示条件对抗损失和条件循环一致性损失之间的权重参数。

对总的目标函数进行最大最小优化，如式(5)所示；

其中，G_X2Y*和G_Y2X*表示对两个生成网络求出近似最优解。当输入真实数据时判别器使得目标函数尽量大，判断其为真实数据；生成网络是要让生成样本越接近真实样本越好，生成网络尽量地欺骗判别器，使其误认为此时输入为真实数据，判别器努力鉴别其为假数据，两者相互博弈，最终达到一个纳什均衡；

步骤6，利用3000对源-目标字体图片数据集对条件循环一致性生成对抗网络进行训练，得到训练后的字体风格迁移模型；通过剩余的 3000多字体对整体网络模型进行测试，检验整体网络模型的生成效果；

训练测试数据为由源字体图片和目标字体图片组成，模型输入图片的尺寸为256*256，迭代次数为200。在训练期间，通过不断地参数调节，将损失函数的权重设置为λ＝10；训练过程中使用Adma优化算法(β₁＝0.5)进行网络参数的优化，找到能够使网络性能最优的参数，并且在参数不断调整的过程中，以1:1的比例交替优化生成器 G和判别器D，最终两个网络模型的学习率均设置为0.0002；

步骤7，进行字体风格转换，将源字体输入到字体风格迁移网络中，输出相应风格模型下的目标风格字体。

采用本发明的方法对模型训练效果，如图5所示，其证明了方法的可行性，模型可生成高质量的风格字体图片且训练稳定，生成字体轮廓清晰，风格样式准确。

Claims

1.基于条件循环一致性生成对抗网络的字体风格迁移方法，其特征在于，具体按照以下步骤实施：

步骤3，搭建判别网络模型，判别器的输入为步骤2中生成的目标风格字体图片以及源目标字体图片，判别器对生成目标字体图片和与之对应的目标字体图片做真假判别；

步骤5，构造损失函数，条件循环一致性损失函数同时学习两个生成器G_X2Y和G_Y2X的映射，实现G_Y2X(G_X2Y(x|L_y))≈x和G_X2Y(G_Y2X(y|L_x))≈y；条件对抗损失函数使生成域图像的分布和源域图像点的数据分布相匹配；

2.根据权利要求1所述的基于条件循环一致性生成对抗网络的字体风格迁移方法，其特征在于，所述步骤1中，具体步骤如下：

3.根据权利要求1所述的基于条件循环一致性生成对抗网络的字体风格迁移方法，其特征在于，所述步骤2中，生成网络模型的搭建步骤如下：

第一层卷积模块，输入为源字体图片和标签字体图片，输出尺度为1*256*256*64，卷积核大小为7*7，步长为1，批量标准化，Relu激活函数；

第二层卷积模块，输入第一层的输出特征，输出尺度为1*128*128*128，卷积核大小为3*3，步长为2，BatchNorm批量标准化，Relu激活函数；

第三层卷积模块，输入第二层的输出特征，输出尺度为1*64*64*256，卷积核大小为3*3，步长为2，BatchNorm批量标准化，Relu激活函数；

第一层反卷积模块输入残差块的输出特征，输出尺度为1*128*128*128，卷积核大小为3*3，步长为2，BatchNorm批量标准化，Relu激活函数；

4.根据权利要求1所述的基于条件循环一致性生成对抗网络的字体风格迁移方法，其特征在于，所述步骤3中，判别网络模型的搭建步骤包括：

第二层卷积模块输入第一层的输出特征，输出尺度为1*64*64*128，卷积核大小为4*4，步长为2，BatchNorm批量标准化，Lrelu激活函数；

第三层卷积模块输入第二层的输出特征，输出尺度为1*32*32*256，卷积核大小为4*4，步长为2，BatchNorm批量标准化，Lrelu激活函数；

第四层卷积模块输入第三层的输出特征，输出尺度为1*32*32*512，卷积核大小为4*4，步长为1，BatchNorm批量标准化，Lrelu激活函数；

最后一层卷积模块输入第四层的输出特征，输出尺度为1*32*32*1，卷积核大小为4*4，步长为1，通过Sigmoid激活函数输出判别结果。

5.根据权利要求1所述的基于条件循环一致性生成对抗网络的字体风格迁移方法，其特征在于，所述步骤4中，整体网络模型的搭建步骤包括：

整体网络模型为两个环状的的图像循环生成结构，首先将源域样本映射到目标域，然后再映射回源域得到二次生成图像，分别为X域-Y域-X域和Y域-X域-Y域两个环状结构，实现两种风格的字体互相生成；

X域-Y域-X域：将源字体图片X和标签字体图片Y输入到生成器G_X2Y中，通过迁移网络生成Y字体图片，即G_X2Y(x|L_y)；再将生成字体图片和标签字体图片X输入到生成器G_Y2X中，通过迁移网络再次生成字体图片X，即G_Y2X(G_X2Y(x|L_y))；判别器D_Y对真实字体图片Y和生成字体图片G_X2Y(x|L_y)进行真伪判别，判别器D_X对真实字体图片X和生成字体图片G_Y2X(G_X2Y(x|L_y))进行真伪判别；

6.根据权利要求1所述的基于条件循环一致性生成对抗网络的字体风格迁移方法，其特征在于，所述步骤5中，损失函数具体包括：

L(G_X2Y,G_Y2X,D_X,D_Y)＝L_GAN(G_X2Y,D_Y,X,Y)+L_GAN(G_Y2X,D_Y,X,Y)+λL_cyc(G_X2Y,G_Y2X) (4)；

对总的目标函数进行最大最小优化，如式(5)所示；

其中，G_X2Y*和G_Y2X*表示对两个生成网络求出近似最优解。

7.根据权利要求1所述的基于条件循环一致性生成对抗网络的字体风格迁移方法，其特征在于，所述步骤6中，训练测试数据为由源字体图片和目标字体图片组成，模型输入图片的尺寸为256*256，迭代次数为200；将损失函数的权重设置为λ＝10；训练过程中使用Adma优化算法进行网络参数的优化，找到能够使网络性能最优的参数，并且在参数不断调整的过程中，以1:1的比例交替优化生成器和判别器，且两个网络模型的学习率均设置为0.0002。