CN114330237A

CN114330237A - 一种基于嵌套编-解码网络的中文字体生成方法及系统

Info

Publication number: CN114330237A
Application number: CN202111664197.5A
Authority: CN
Inventors: 李艳春; 范龙飞; 李哲涛; 裴廷睿; 龙赛琴; 胡凌志; 李泽群
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本发明提供一种基于嵌套编‑解码网络的中文字体生成方法及系统，属于深度学习技术领域，中文字体生成方法包括：获取训练样本集；训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号；目标字体样本文件中包括部分目标字符；源字体样本文件中包括与目标字体样本文件中的目标字符对应的源字符；根据训练样本集，对嵌套编‑解码网络进行训练，得到字体生成模型；基于字体生成模型，根据完整的源字体文件及目标字体编号，生成完整的目标字体文件。简化了字体生成的过程，实现印刷体之间及印刷体与手写字体的自动转换，并解决汉字笔锋细节生成的问题。

Description

一种基于嵌套编-解码网络的中文字体生成方法及系统

技术领域

本发明涉及深度学习技术领域，特别是涉及一种基于嵌套编-解码网络的中文字体生成方法及系统。

背景技术

众所周知，中文汉字有逾70000个之多，常用汉字有三千多个。设计者设计一款字体需要设计出该字体下的每个汉字，设计一款书法家字体也需要该书法家写出几乎所有常用汉字。因此，汉字字体设计是一项非常耗时繁重的任务，探索更为高效的设计方法：即如何只需人工设计某一字体下的部分汉字，而自动生成该字体下剩余的汉字，具有很大的实用意义。

近年来，以深度神经网络为最主要特点的深度学习(Deep Learning)在很多领域得到广泛应用，极大地推动了如图像识别、物体检测、视频预测、自然语言处理等领域的发展。不同于英语只有26个英文字母，中文汉字仅常用字就有三千多个，且有的汉字笔画繁多，结构复杂；汉字字体也种类多样，如宋体、楷体、仿宋、黑体……包括各种著名书法家或者普通人的手写字体。所以，在汉字字体迁移这一领域，利用深度学习进行汉字字体迁移的研究相对较少。

目前已有的相关研究往往采用基于汉字笔画分解重组的方法。一类方法是：源字体和真实目标字体下的汉字被层次分解成偏旁部首、笔画等各个部件，模型通过训练“记住”每个偏旁部首、笔画在目标字体下的形状，在模型的测试阶段，源字体同样被分解成各个部件，然后给每个部件匹配最佳的目标字体下的部件，最后进行组合形成生成目标字体。另一类方法利用深度神经网络生成与目标字体相近的偏旁部首或者笔画。

上述两种基于汉字分解的字体迁移方法都弊端在于该方法极大地依赖分解结果的好坏。对于笔画繁多、结构复杂的汉字，很难对其进行合适的分解，而对于笔画少的汉字，这样的分解又没有必要，因此这些都直接影响后续生成目标字体的结果。其次，基于汉字分解的方法前期预处理非常耗时间，且分解过程需要较多的先验知识。

发明内容

本发明的目的是提供一种基于嵌套编-解码网络的中文字体生成方法及系统，可简化字体生成过程，实现印刷体之间及印刷体与手写字体的自动转换，并解决汉字笔锋细节生成的问题。

为实现上述目的，本发明提供了如下方案：

一种基于嵌套编-解码网络的中文字体生成方法，所述基于嵌套编-解码网络的中文字体生成方法包括：

获取训练样本集；所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号；所述目标字体样本文件中包括部分目标字符；所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符；

根据所述训练样本集，对嵌套编-解码网络进行训练，得到字体生成模型；

基于所述字体生成模型，根据完整的源字体文件及目标字体编号，生成完整的目标字体文件。

可选地，所述嵌套编-解码网络包括汉字迁移模块及判别器模块；

所述根据所述训练样本集，对嵌套编-解码网络进行训练，得到字体生成模型，具体包括：

根据所述源字体样本文件生成源字体图像域；根据所述目标字体样本文件生成目标字体图像域；

将所述源字体图像域转换为源二值文字图像；将所述目标字体图像域转换为目标二值文字图像；

根据所述目标字体编号及预先设定的查找表，确定目标字体类别数据；所述查找表为二维表，第一维为字体编号，第二维为字体类别数据；所述字体类别数据为预先设计的字体特征；

采用所述汉字迁移模块对所述源二值文字图像及所述目标字体类别数据进行特征融合，得到特征融合图像；

采用所述判别器模块判别所述特征融合图像的真实性及字体类别的准确性；

根据所述目标二值文字图像、所述源二值文字图像、所述特征融合图像及所述特征融合图像的真实性及准确性，确定所述汉字迁移模块的损失函数；

根据所述特征融合图像的真实性及字体类别的准确性，确定所述判别器模块的损失函数；

根据汉字迁移模块的损失函数对所述汉字迁移模块进行迭代训练，根据判别器模块的损失函数对所述判别器模块进行迭代训练，直至所述汉字迁移模块及所述判别器模块的损失函数均收敛，以得到最优的嵌套编-解码网络，最优的嵌套编-解码网络为字体生成模型。

为实现上述目的，本发明还提供了如下方案：

一种基于嵌套编-解码网络的中文字体生成系统，所述基于嵌套编-解码网络的中文字体生成系统包括：

样本获取单元，用于获取训练样本集；所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号；所述目标字体样本文件中包括部分目标字符；所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符；

训练单元，与所述样本获取单元连接，用于根据所述训练样本集，对嵌套编-解码网络进行训练，得到字体生成模型；

字体生成单元，与所述训练单元连接，用于基于所述字体生成模型，根据完整的源字体文件及目标字体编号，生成完整的目标字体文件。

根据本发明提供的具体实施例，本发明公开了以下技术效果：通过构建嵌套编-解码网络，采用部分目标字符及对应的源字符对嵌套编-解码网络进行训练，得到字体生成模型，再基于字体生成模型，根据完整的源字体文件及目标字体编号，生成完整的目标字体文件，将每个汉字视作一张图片来处理，不依赖于前期的预处理和后期的笔画重组，是一种端到端的汉字字体迁移方法，极大地简化了字体生成过程且增强了生成效果，实现印刷体之间及印刷体与手写字体的转换。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于嵌套编-解码网络的中文字体生成方法的流程图；

图2为嵌套编-解码网络的结构示意图；

图3为汉字迁移模块的结构示意图；

图4为嵌套编-解码网络的工作流程图；

图5为将宋体字迁移到目标字体的效果图；

图6为本发明基于嵌套编-解码网络的中文字体生成系统的模块结构图。

符号说明：

汉字迁移模块-1，编码器-11，类别字体嵌入模块-12，解码器-13，判别器模块-3，样本获取单元-4，训练单元-5，字体生成单元-6。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于嵌套编-解码网络的中文字体生成方法及系统，通过构建嵌套编-解码网络，采用部分目标字符及对应的源字符对嵌套编-解码网络进行训练，得到字体生成模型，再基于字体生成模型，根据完整的源字体文件及目标字体编号，生成完整的目标字体文件，将每个汉字视作一张图片来处理，不依赖于前期的预处理和后期的笔画重组，是一种端到端的汉字字体迁移方法，极大地简化了字体生成过程且增强了生成效果，实现印刷体之间及印刷体与手写字体的转换。

本发明运用了一种新的嵌套编-解码网络结构，用于多层次特征提取和融合，更好的处理字体的清晰度和笔锋细节问题。引入了对抗学习的方法。对抗学习的方法可以使得模型学到与已给图片相同分布的伪图片，从而提高生成目标字体的逼真度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于嵌套编-解码网络的中文字体生成方法包括：

S1：获取训练样本集。所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号；所述目标字体样本文件中包括部分目标字符；所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符。在本实施例中，源字体样本文件FontR为宋体ttf文件。目标字体样本文件FontT^l为目标印刷字体ttf或者otf文件。l表示对应的目标印刷字体编号，l∈[0,40)。具体地，目标字符的数量为N。

S2：根据所述训练样本集，对嵌套编-解码网络进行训练，得到字体生成模型。

S3：基于所述字体生成模型，根据完整的源字体文件及目标字体编号，生成完整的目标字体文件。

具体地，如图2所示，所述嵌套编-解码网络包括汉字迁移模块及判别器模块。

步骤S2具体包括：

S21：根据所述源字体样本文件生成源字体图像域。根据所述目标字体样本文件生成目标字体图像域。

S22：将所述源字体图像域R转换为源二值文字图像Ri；将所述目标字体图像域T^l转换为目标二值文字图像T^l。具体地，源二值文字图像Ri和目标二值文字图像T^l的图像像素均为256*256，i∈[0,N)。将对应的源二值文字图像Ri和目标二值文字图像T^l封装在一起，并生成训练集文件和测试集文件，文件大小比例为4：1。

S23：根据所述目标字体编号及预先设定的查找表，确定目标字体类别数据。具体地，所述查找表为二维表，第一维为字体编号，第二维为字体类别数据；所述字体类别数据为预先设计的字体特征。具体地，将目标字体编号l通过预先设定的查找表编码成维度为[1,128]的向量作为目标字体类别数据CE_l，通过广播机制和维度扩展将其维度转化为[16,16,128]。预先设定的查找表由不可训练的高斯噪声生成，维度为[40,128]。

S24：采用所述汉字迁移模块对所述源二值文字图像及所述目标字体类别数据进行特征融合，得到特征融合图像。

S25：采用所述判别器模块判别所述特征融合图像的真实性及字体类别的准确性。具体地，将特征融合图像S_fusei和源二值文字图像Ri输入判别器模块D。判别器模块D包括真实性判别器D_B和准确性判别器D_C。D_B由1个卷积层和3个卷积、归一、LeakyRelu激活层构成，输出维度为：[16*16*512]。D_C在D_B的基础上在最后增加了一层全连接层层，输出维度为：[1]。在进入判别器模块前，对特征融合图像S_fusei和与之对应的源二值文字图像Ri在第2维度进行concentrate操作，得到第一判别数据，输入到判别器模块D中。首先通过真实性判别器D_B，第一判别数据被映射成维度为[16*16*512]的映射数据D_Bi，用于判定特征融合图像S_fusei的真实性。其次准确性判别器D_C生成第二判别数据D_Ci，维度为[128]，用于判定生成的目标印刷字体种类的准确性。

S26：根据所述目标二值文字图像、所述源二值文字图像、所述特征融合图像及所述特征融合图像的真实性及准确性，确定所述汉字迁移模块的损失函数。

S27：根据所述特征融合图像的真实性及字体类别的准确性，确定所述判别器模块的损失函数。

S28：根据汉字迁移模块的损失函数对所述汉字迁移模块进行迭代训练，根据判别器模块的损失函数对所述判别器模块进行迭代训练，直至所述汉字迁移模块及所述判别器模块的损失函数均收敛，以得到最优的嵌套编-解码网络，最优的嵌套编-解码网络为字体生成模型。具体地，通过反向传播进行迭代优化。

进一步地，所述汉字迁移模块包括依次连接的编码器、类别字体嵌入模块以及解码器。

步骤S24：采用所述汉字迁移模块对所述源二值文字图像及所述目标字体类别数据进行特征融合，得到特征融合图像，具体包括：

S241：采用所述编码器对所述源二值文字图像进行编码，得到源字体特征。

S242：采用所述类别字体嵌入模块将所述源字体特征与所述目标字体类别数据进行合并，得到类别字体标识向量。

具体地，将源字体特征En6Output通过bilinear上采样层后与目标字体类别数据CE_l在第2维进行Concatenate操作得到类别字体标识向量EmbeddingOutput，维度为[16,16,640]。类别字体嵌入模块将源字体特征En6Output和目标字体编号l转化为带有类别字体标识的类别字体标识向量EmbeddingOutput；

在通过解码器之前将不可训练的高斯噪声作为字体类别嵌入连接到源字体特征En6Output中，解决单个字符出现多种字体形式的问题。一方面步骤编码器部分仍能将相同的字符映射到相同的向量；另一方面，解码器也将同时使用字符和类别字体嵌入来生成目标数据。

S243：采用所述解码器对所述类别字体标识向量进行解码，得到特征融合图像。

更进一步地，所述编码器包括依次连接的第一嵌套编码层En1、第二嵌套编码层En2、第三嵌套编码层En3、第四嵌套编码层En4、第五嵌套编码层En5及第六嵌套编码层En6。

如图3所示，步骤S241具体包括：

采用第一嵌套编码层En1将所述源二值文字图像转换为第一编码特征En1Output。

采用第二嵌套编码层En2将所述第一编码特征En1Output转换为第二编码特征En2Output。

采用第三嵌套编码层En3将所述第二编码特征转换En2Output为第三编码特征En3Output。

采用第四嵌套编码层En4将所述第三编码特征En3Output转换为第四编码特征En4Output。

采用第五嵌套编码层En5将所述第四编码特征En4Output转换为第五编码特征En5Output。

采用第六嵌套编码层En6将所述第五编码特征En5Output转换为源字体特征En6Output。

具体地，所述第一嵌套编码层、所述第二嵌套编码层、所述第三嵌套编码层、所述第四嵌套编码层、所述第五嵌套编码层、所述第六嵌套编码层均包括卷积-批量标准化-线性整流函数CBR子模块、1/2下采样DownCBR子模块、M倍扩大M*DilationCBR子模块及2UpCBR子模块。

其中，CBR子模块包括依次连接的卷积核尺寸为3，填充为1，卷积核之间间距为1的第一二维卷积层、归一化处理层及RELU激活层。

1/2DownCBR子模块包括依次连接的卷积核尺寸为2，步长为2的二维最大池化层及CBR子模块。

M*DilationCBR子模块包括依次连接的卷积核尺寸为3，填充为1，卷积核之间的间距为2的第二二维卷积层、归一化处理层及RELU激活层。

2UpCBR子模块包括依次连接的bilinear上采样层和CBR模块。

具体地，第一嵌套编码层En1将所述源二值文字图像转换为第一编码特征En1Output，具体包括：

将源二值文字图像Ri转换为维度为[256,256,1]的向量，第0维、第1维表示像素大小，第2维表示通道数。向量通过CBR模块得到En1_en1，维度为：[256,256,64]；En1_en1通过CBR模块得到En1_en2，维度为：[256,256,32]；En1_en2通过1/2DownCBR模块得到En1_en3，维度为：[128,128,32]；En1_en3通过1/2DownCBR模块得到En1_en4，维度为：[64,64,32]；En1_en4通过1/2DownCBR模块得到En1_en5，维度为：[32,32,32]；En1_en5通过1/2DownCBR模块得到En1_en6，维度为：[16,16,32]；En1_en6通过1/2DownCBR模块得到En1_en7，维度为：[8,8,32]；En1_en7通过2*DilationCBR模块得到En1_en8，维度为：[8,8,32]。En1_en7与En1_en8在第2维进行Concatenate连接(将新向量拼接到原来的向量之后，对应着维数增加)操作并通过CBR模块得到En1_de6，维度为：[8,8,32]；En1_en6与En1_de6在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de5，维度为：[16,16,32]；En1_en5与En1_de5在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de4，维度为：[32,32,32]；En1_en4与En1_de4在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de3，维度为：[64,64,32]；En1_en3与En1_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de2，维度为：[128,128,32]；En1_en2与En1_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de1，维度为：[256,256,64]；En1_en1与En1_de1做加法运算得到第一编码特征En1Output，维度为：[256,256,64]。

第一嵌套编码层En1将输入的数据转化为和输出相同的通道数的中间映射En1_en1并进行了局部特征提取；采用定义参数为7的对称式编解码结构--7表示进行层级采样的次数，将中间映射En1_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对En1_en1与En1_de1做加法运算进行求和融合局部特征和多尺度特征，得到第一编码特征En1Output。

所述第二嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似，也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。

第二嵌套编码层En2将所述第一编码特征En1Output转换为第二编码特征En2Output，具体包括：第一编码特征En1Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[128,128,64]的数据En2Input。En2Input输入到第二嵌套编码层En2中：En2Input通过CBR模块得到En2_en1，维度为：[128,128,128]；En2_en1通过CBR模块得到En2_en2，维度为：[128,128,32]；En2_en2通过1/2DownCBR模块得到En2_en3，维度为：[64,64,32]；En2_en3通过1/2DownCBR模块得到En2_en4，维度为：[32,32,32]；En2_en4通过1/2DownCBR模块得到En2_en5，维度为：[16,16,32]；En2_en5通过1/2DownCBR模块得到En2_en6，维度为：[8,8,32]；En2_en6通过2*DilationCBR模块得到En2_en7，维度为：[8,8,32]；En2_en6与En2_en7在第2维进行Concatenate操作并通过CBR模块得到En2_de5，维度为：[8,8,32]；En2_en5与En2_de5在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de4，维度为：[16,16,32]；En2_en4与En2_de4在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de3，维度为：[32,32,32]；En2_en3与En2_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de2，维度为：[64,64,32]；En2_en2与En2_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de1，维度为：[128,128,128]；En2_en1与En2_de1做加法运算得到第二编码特征En2Output，维度为：[128,128,128]。

第二嵌套编码层En2将输入的数据En2Input转化为和输出相同的通道数的中间映射En2_en1并进行了局部特征提取。采用定义参数为6的对称式编解码结构，将中间映射En2_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对En2_en1与En2_de1做加法运算进行求和融合局部特征和多尺度特征，得到第二编码特征En2Output。

所述第三嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似，也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。

第三嵌套编码层En3将所述第二编码特征转换En2Output为第三编码特征En3Output，具体包括：

将第二编码特征En2Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[64,64,128]的数据En3Input。En3Input输入到第三嵌套编码层En3中——En3Input通过CBR模块得到En3_en1，维度为：[64,64,256]；En3_en1通过CBR模块的到En3_en2，维度为：[64,64,64]；En3_en2通过1/2DownCBR模块得到En3_en3，维度为：[32,32,64]；En3_en3通过1/2DownCBR模块得到En3_en4，维度为：[16,16,64]；En3_en4通过1/2DownCBR模块得到En3_en5，维度为：[8,8,64]；En3_en5通过2*DilationCBR模块得到En3_en6，维度为：[8,8,64]；En3_en5与En3_en6在第2维进行Concatenate操作并通过CBR模块得到En3_de4，维度为：[8,8,64]；En3_en4与En3_de4在第2维进行Concatenate操作并通过2UpCBR模块得到En3_de3，维度为：[16,16,64]；En3_en3与En3_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de2，维度为：[32,32,64]；En3_en2与En3_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En3_de1，维度为：[64,64,256]；En3_en1与En3_de1做加法运算得到第三编码特征En3Output，维度为：[64,64,256]。

第三嵌套编码层En3将输入的数据En3Input转化为和输出相同的通道数的中间映射En3_en1并进行了局部特征提取。采用定义参数为5的对称式编解码结构，将中间映射En3_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对En3_en1与En3_de1做加法运算进行求和融合局部特征和多尺度特征，得到第三编码特征En3Output。

所述第四嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似，也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。

第四嵌套编码层En4将所述第三编码特征En3Output转换为第四编码特征En4Output，具体包括：

将第三编码特征En3Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[32,32,256]的数据En4Input。En4Input输入到第四嵌套编码层En4中——En4Input通过CBR模块得到En4_en1，维度为：[32,32,512]；En4_en1通过CBR模块的到En4_en2，维度为：[32,32,128]；En4_en2通过1/2DownCBR模块得到En4_en3，维度为：[16,16,128]；En4_en3通过1/2DownCBR模块得到En4_en4，维度为：[8,8,128]；En4_en4通过2*DilationCBR模块得到En4_en5，维度为：[8,8,128]；En4_en4与En4_en5在第2维进行Concatenate操作并通过CBR模块得到En4_de3，维度为：[8,8,128]；En4_en3与En4_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En4_de2，维度为：[16,16,128]；En4_en2与En4_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En4_de1，维度为：[32,32,512]；En4_en1与En4_de1做加法运算得到第四编码特征En4Output，维度为：[32,32,512]。

第四嵌套编码层En4将输入的数据En4Input转化为和输出相同的通道数的中间映射En4_en1并进行了局部特征提取；采用定义参数为4的对称式编解码结构，将中间映射En4_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对En4_en1与En4_de1做加法运算进行求和融合局部特征和多尺度特征，得到第四编码特征En4Output。

所述第五嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似，也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。

第五嵌套编码层En5将所述第四编码特征En4Output转换为第五编码特征En5Output，具体包括：

将第四编码特征En4Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[16,16,512]的数据En5Input。En5Input输入到第五嵌套编码层En5中——En5Input通过CBR模块得到En5_en1，维度为：[16,16,512]；En5_en1通过CBR模块的到En5_en2，维度为：[16,16,256]；En5_en2通过2*DilationCBR模块得到En5_en3，维度为：[16,16,256]；En5_en3通过4*DilationCBR模块得到En5_en4，维度为：[16,16,256]；En5_en4通过8*DilationCBR模块得到En5_en5，维度为：[16,16,256]；En5_en4与En5_en5在第2维进行Concatenate操作并通过4*DilationCBR模块得到En5_de3，维度为：[16,16,256]；En5_en3与En5_de3在第2维进行Concatenate操作并通过2*DilationCBR模块得到En5_de2，维度为：[16,16,256]；En5_en2与En5_de2在第2维进行Concatenate操作并通过CBR模块得到En5_de1，维度为：[16,16,512]；En5_en1与En5_de1做加法运算得到第五编码特征En5Output，维度为：[16,16,512]。

第五嵌套编码层En5将输入的数据En5Input转化为和输出相同的通道数的中间映射En5_en1并进行了局部特征提取。采用高度为4的对称式编解码结构，将中间映射En5_en1作为输入。数据En5_en1的第0维度和第1维度表示数据的分辨率，因为数据的分辨率相对较低，进一步降低分辨率进行采样会导致有用上下文的丢失，所以使用扩展卷积替换池化和上采样操作，使得En5模块内部的数据具有和输入数据En5Input相同的分辨率，提取和学习多尺度的语义信息。

所述第六嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似，也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。

第六嵌套编码层En6将所述第五编码特征En6Output转换为源字体特征En6Output，具体包括：

将第五编码特征En5Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[8,8,512]的数据En6Input。En6Input输入到第六层嵌套编码层En6中——En6Input通过CBR模块得到En6_en1，维度为：[8,8,512]；En6_en1通过CBR模块的到En6_en2，维度为：[8,8,256]；En6_en2通过2*DilationCBR模块得到En6_en3，维度为：[8,8,256]；En6_en3通过4*DilationCBR模块得到En6_en4，维度为：[8,8,256]；En6_en4通过8*DilationCBR模块得到En6_en5，维度为：[8,8,256]；En6_en4与En6_en5在第2维进行Concatenate操作并通过4*DilationCBR模块得到En6_de3，维度为：[8,8,256]；En5_en3与En6_de3在第2维进行Concatenate操作并通过2*DilationCBR模块得到En6_de2，维度为：[8,8,256]；En6_en2与En6_de2在第2维进行Concatenate操作并通过CBR模块得到En6_de1，维度为：[8,8,512]；En6_en1与En6_de1做加法运算得到源字体特征En6Output，维度为：[8,8,512]。

第六嵌套编码层En6将输入的数据En6Input转化为和输出相同的通道数的中间映射En6_en1并进行了局部特征提取；采用高度为4的对称式编解码结构，将中间映射En6_en1作为输入。数据En6_en1的第0维度和第1维度表示数据的分辨率，因为数据的分辨率相对较低，进一步降低分辨率进行采样会导致有用上下文的丢失，所以我们使用扩展卷积替换池化和上采样操作，使得En6模块内部的数据具有和输入数据En6Input相同的分辨率，提取和学习多尺度的语义信息。

进一步地，所述解码器包括依次连接的第五嵌套解码层、第四嵌套解码层、第三嵌套解码层、第二嵌套解码层及第一嵌套解码层；所述第一嵌套解码层还与所述第一嵌套编码层连接；所述第二嵌套解码层还与所述第二嵌套编码层连接；所述第三嵌套解码层还与所述第三嵌套编码层连接；所述第四嵌套解码层还与所述第四嵌套编码层连接；所述第五嵌套解码层还与所述类别字体嵌入模块连接。

步骤S243：采用所述解码器对所述类别字体标识向量进行解码，得到特征融合图像，具体包括：

采用所述第五嵌套解码层，将所述类别字体标识向量及所述第五编码特征连接，并转换为第五解码特征。第五嵌套解码层De5的结构与第五嵌套编码层En5的结构一致。

具体地，将第五编码特征En5Output和类别字体标识向量EmbeddingOutput，在第2维进行Concatenate操作通过bilinear上采样层得到维度为[16,16,1152]的数据De5Input。De5Input输入到第五嵌套解码层De5中得到第五解码特征De5Output，维度为：[16,16,512]。第五嵌套解码层De5将输入的数据De5Input转化为和输出相同的通道数的中间映射De5_en1并进行了局部特征提取；采用高度为4的对称式编解码结构，将中间映射De5_en1作为输入。数据De5_en1的第0维度和第1维度表示数据的分辨率，因为数据的分辨率相对较低，进一步降低分辨率进行采样会导致有用上下文的丢失，所以使用扩展卷积替换池化和上采样操作，使得第五嵌套解码层De5内部的数据具有和输入数据De5Input相同的分辨率，提取和学习多尺度的语义信息。

采用所述第四嵌套解码层，将所述第五解码特征及所述第四编码特征连接，并转换为第四解码特征。第四嵌套解码层De4的结构和第四嵌套编码层En4的结构一致。

具体地，将第四编码特征En4Output和第五解码特征De5Output，在第2维进行Concatenate操作通过bilinear上采样层得到维度为[32,32,1024]的数据De4Input。De4Input输入到第四嵌套解码层De4中得到第四解码特征De4Output，维度为：[32,32,256]。第四嵌套解码层De4将输入的数据De4Input转化为和输出相同的通道数的中间映射De4_en1并进行了局部特征提取；采用定义参数为4的对称式编解码结构，将中间映射De4_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对De4_en1与De4_de1做加法运算进行求和融合局部特征和多尺度特征，得到第四解码特征De4Output。

采用所述第三嵌套解码层，将所述第四解码特征及所述第三编码特征连接，并转换为第三解码特征。第三嵌套解码层De3的结构和第三嵌套编码层En3的结构一致。

具体地，将第三编码特征En3Output和第四解码特征De4Output，在第2维进行Concatenate操作通过bilinear上采样层得到维度为[64,64,512]的数据De3Input。De3Input输入到第三嵌套解码层De3中得到第三解码特征De3Output，维度为：[64,64,128]。第三嵌套解码层De3将输入的数据De3Input转化为和输出相同的通道数的中间映射De3_en1并进行了局部特征提取；采用定义参数为5的对称式编解码结构，将中间映射De3_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对De3_en1与De3_de1做加法运算进行求和融合局部特征和多尺度特征，得到第三解码特征De3Output。

采用所述第二嵌套解码层，将所述第三解码特征及所述第二编码特征连接，并转换为第二解码特征。第二嵌套解码层De2的结构和第二嵌套编码层En2的结构一致。

具体地，将第二编码特征En2Output和第三解码特征De3Output，在第2维进行Concatenate操作通过bilinear上采样层得到维度为[128,128,256]的输入数据De2Input。De2Input输入到第二嵌套解码层De2中得到第二解码特征De2Output，维度为：[128,128,64]。第二嵌套解码层De2将输入的数据De2Input转化为和输出相同的通道数的中间映射De2_en1并进行了局部特征提取；采用定义参数为6的对称式编解码结构，将中间映射De2_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对De2_en1与De2_de1做加法运算进行求和融合局部特征和多尺度特征，得到第二解码特征De2Output。

采用所述第一嵌套解码层，将所述第二解码特征及所述第一编码特征连接，并转换为第一解码特征。第一嵌套解码层De1的结构和第一嵌套编码层En1的结构一致。

具体地，将第一编码特征En1Output和第二解码特征De2Output，在第2维进行Concatenate操作通过bilinear上采样层得到维度为[256,256,128]的输入数据De1Input。De1Input输入到第一嵌套解码De1中得到第一解码特征De1Output，维度为：[256,256,64]。第一嵌套解码层De1将输入的数据De1Input转化为和输出相同的通道数的中间映射De1_en1并进行了局部特征提取；采用定义参数为7的对称式编解码结构，将中间映射De1_en1作为输入，在逐步下采样的过程中提取多尺度特征，通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据，这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取，也使得网络变深，获取更大的感受野和更丰富的局部及全局特征，学习提取和编码多尺度的语义信息；通过对De1_en1与De1_de1做加法运算进行求和融合局部特征和多尺度特征，得到第一解码特征De1Output。

根据所述源字体特征得到第六局部特征图。

根据所述第五解码特征得到第五局部特征图。

根据所述第四解码特征得到第四局部特征图。

根据所述第三解码特征得到第三局部特征图。

根据所述第二解码特征得到第二局部特征图。

根据所述第一解码特征得到第一局部特征图。

具体地，将源字体特征En6Output、第五解码特征De5Output、第四解码特征De4Output、第三解码特征De3Output、第二解码特征De2Output、第一解码特征De1Output均通过卷积核为3*3的二维卷积层和Sigmoid函数得到对应的局部特征图：第六局部特征图

维度为：[8,8,1]，第五局部特征图

维度为：[16,16,1]，第四局部特征图

维度为：[32,32,1]，第三局部特征图

维度为：[64,64,1]，第二局部特征图

维度为：[128,128,1]，第一局部特征图

维度为：[256,256,1]。

将所述第六局部特征图、第五局部特征图、第四局部特征图、第三局部特征图、第二局部特征图及第一局部特征图融合，得到特征融合图像。

具体地，将所述第六局部特征图、第五局部特征图、第四局部特征图、第三局部特征图、第二局部特征图及第一局部特征图分别通过bilinear上采样层至维度为：[256,256,1]并对它们的第2维度进行Concatenate操作后，通过1*1二维卷积层和Sigmoid函数，生成特征融合图像S_fusei,维度为[256,256,1]。如图4所示为本发明嵌套编-解码网络的工作流程图。

本发明的嵌套编-解码网络结构中每一个嵌套结构可以更加有效的提取输入数据的多尺度特征和聚集阶段的多层次特征，更好的处理字体的清晰度和笔锋细节问题。

本发明引入了对抗学习的方法，使得模型学到与已给图片相同分布的伪图片，从而提高生成目标字体的逼真度。

进一步地，汉字迁移模块损失函数G_loss由四个损失函数构成。

(1)总特征图损失函数

在训练时，将源二值文字图像Ri和目标二值文字图像T^li，两两配对；由第i个源二值文字图像Ri经所述汉字迁移模块映射而成的局部特征图

上采样至目标字体图像大小后，与目标二值文字图像T^li构成局部特征图损失函数

其中，

为局部特征图损失函数，上标m表示第几个局部特征图，(r,c)是像素坐标，(H,W)是上采样至目标字体图像大小后的

图像的高和宽，

表示目标二值文字图像T^li像素点的特征值，

表示源二值文字图像Ri像素点的特征值，总特征图损失函数为

其中

是总特征图损失函数，

为局部特征图损失函数；

是S_fusei融合特征图的损失函数，公式与

一致；M＝6。

总特征图损失函数的作用是计算局部特征图上采样以及特征图融合时造成的损失，并用于反向传播减少损失。总特征图损失函数

在训练过程中始于最小化整个损失，使得输出的特征融合图像对于文字的笔锋处理的更好。

(2)最小绝对值偏差损失函数L₁。将目标二值文字图像T^li与特征融合图像S_fuse输入到L₁中：

其中，(r,c)为特征融合图像的像素坐标，(H,W)为特征融合图像的高和宽，T^li为目标二值文字图像，

为目标二值文字图像T^li的像素点的特征值，S_fusei为特征融合图像，

为特征融合图像S_fusei的像素点的特征值.最小绝对值偏差损失函数L₁用于判断特征融合图像S_fusei与目标二值文字图像T^li的绝对值偏差偏差。

(3)类别损失函数L_cat。在训练时，将目标字体编号l与步骤S25获得的第二判别数据D_Ci输入到L_cat中：

L_cat为已知的CrossEntropyLoss函数，D_Ci为第一个参数，l为第二个参数。

类别损失函数L_cat用于计算特征融合图像S_fusei的字体编号与目标字体编号l的接近程度，越小越接近。

(4)编码恒定损失函数L_EnCo：在训练时，将源二值文字图像Ri与特征融合图像S_fusei配对，通过汉字编码模块E构成编码恒定损失函数L_EnCo：

其中，E为汉字编码网络，E(Ri)为由源二值文字图像Ri构成的编码；E(S_fusei)为特征融合图像S_fusei的编码；S_fusei为特征融合图像；N为目标字符的数量。编码恒定损失函数L_EnCo用于度量输入的两种数据之间的差异。

(5)判别损失函数L_DF：在训练时，将步骤S25获得的映射数据D_Bi输入到L_DF中：

L_DF为已知的BCEWithLogitsLoss函数，D_Bi为第一个参数，与D_Bi维度相同的内部数值全是1的向量作为第二个参数。判别损失函数L_DF用来控制判别器判别失误的能力，值越小能力越强，从而提高生成器的生成能力。

因此，汉字迁移模块的损失函数G_loss：

其中超参数：Net_pen为10、L1_pen为100、Cat_pen为1、EnCo_pen为15，

为总特征图损失函数，L1为最小绝对值偏差损失函数、L_cat为类别损失函数，L_EnCo为编码恒定损失函数，L_DF为判别损失函数。

将源二值文字图像Ri与目标二值文字图像T^li转化为向量后在第2维度进行concentrate操作，得到真实数据real_ab。源二值文字图像Ri与特征融合图像S_fusei转化为向量后在第2维度进行concentrate操作，得到数据虚假数据fake_ab。将真实数据real_ab与虚假数据fake_ab分别输入判别器D，得到真实映射数据D_Breal_ab和真实判别数据D_Creal_ab、虚假映射数据D_Bfake_ab和虚假判别数据D_Cfake_ab。

判别器模块的损失函数D_loss由两类损失函数构成：

(1)判别损失函数L_DF：在训练时，L_DF由L_DFreal和L_DFfake构成。L_DFreal为已知的BCEWithLogitsLoss函数，D_Breal_ab为第一个参数，与D_Breal_ab维度相同，内部数值全是1的向量作为第二个参数。L_DFfake为已知的BCEWithLogitsLoss函数，D_Bfake_ab为第一个参数，与D_Bfake_ab维度相同，内部数值全是1的向量作为第二个参数。

L_DF＝L_DFfake+L_DFreal

判别损失函数L_DF用于衡量判别器鉴别是否为目标字体图像能力的强弱，数值越小越强。

(2)类别损失函数L_cat：在训练时，L_cat由L_catreal和L_catfake构成。L_catreal为已知的CrossEntropyLoss函数，D_Creal_ab为第一个参数，与D_Creal_ab维度相同，内部数值全是1的向量作为第二个参数。L_catfake为已知的BCEWithLogitsLoss函数，D_Cfake_ab为第一个参数，与D_Cfake_ab维度相同，内部数值全是1的向量作为第二个参数。

L_cat＝Cat_pen*L_catfake+L_catreal

其中超参数Cat_pen为1，类别损失函数L_cat用于衡量判别器鉴别是否为目标字体类别能力的强弱，数值越小越强。

因此，判别器模块的损失函数为：

通过判别器模块损失函数D_loss能够对生成的目标字体图像进行内容上的优化，使其内容更加明确；对生成的目标字体图像进行字体类别上的优化，使得其生成的图像和真实的目标字体图像相近，同时使解码层保留生成汉字的字体种类，收窄了可搜索的范围，因而加快了收敛速度。

在本实施例中，经过800个epoch训练后汉字迁移模块在测试集中表现良好，如图5所示，第一行为源字体，第二行为生成的目标打印字体，第三行为目标真实字体。本发明将每个汉字视作一张图片来处理，不依赖于前期的预处理和后期的笔画重组，是一种端到端的汉字字体迁移系统，极大地简化了字体生成过程、增强了生成效果。

如图6所示，本发明基于嵌套编-解码网络的中文字体生成系统包括：样本获取单元4、训练单元5和字体生成单元6。

其中，所述样本获取单元4用于获取训练样本集。所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号。所述目标字体样本文件中包括部分目标字符。所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符。

所述训练单元5与所述样本获取单元4连接，所述训练单元5用于根据所述训练样本集，对嵌套编-解码网络进行训练，得到字体生成模型。

所述字体生成单元6与所述训练单元5连接，所述字体生成单元6用于基于所述字体生成模型，根据完整的源字体文件及目标字体编号，生成完整的目标字体文件。

相对于现有技术，本发明基于嵌套编-解码网络的中文字体生成系统与上述基于嵌套编-解码网络的中文字体生成方法的有益效果相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于嵌套编-解码网络的中文字体生成方法，其特征在于，所述基于嵌套编-解码网络的中文字体生成方法包括：

2.根据权利要求1所述的基于嵌套编-解码网络的中文字体生成方法，其特征在于，所述嵌套编-解码网络包括汉字迁移模块及判别器模块；

3.根据权利要求2所述的基于嵌套编-解码网络的中文字体生成方法，其特征在于，所述汉字迁移模块包括依次连接的编码器、类别字体嵌入模块以及解码器；

所述采用所述汉字迁移模块，对所述源二值文字图像及所述目标字体类别数据进行特征融合，得到特征融合图像，具体包括：

采用所述编码器对所述源二值文字图像进行编码，得到源字体特征；

采用所述类别字体嵌入模块将所述源字体特征与所述目标字体类别数据进行合并，得到类别字体标识向量；

采用所述解码器对所述类别字体标识向量进行解码，得到特征融合图像。

4.根据权利要求3所述的基于嵌套编-解码网络的中文字体生成方法，其特征在于，所述编码器包括依次连接的第一嵌套编码层、第二嵌套编码层、第三嵌套编码层、第四嵌套编码层、第五嵌套编码层及第六嵌套编码层；

所述采用所述编码器对所述源二值文字图像进行编码，得到源字体特征，具体包括：

采用第一嵌套编码层将所述源二值文字图像转换为第一编码特征；

采用第二嵌套编码层将所述第一编码特征转换为第二编码特征；

采用第三嵌套编码层将所述第二编码特征转换为第三编码特征；

采用第四嵌套编码层将所述第三编码特征转换为第四编码特征；

采用第五嵌套编码层将所述第四编码特征转换为第五编码特征；

采用第六嵌套编码层将所述第五编码特征转换为源字体特征。

5.根据权利要求4所述的基于嵌套编-解码网络的中文字体生成方法，其特征在于，所述解码器包括依次连接的第五嵌套解码层、第四嵌套解码层、第三嵌套解码层、第二嵌套解码层及第一嵌套解码层；所述第一嵌套解码层还与所述第一嵌套编码层连接；所述第二嵌套解码层还与所述第二嵌套编码层连接；所述第三嵌套解码层还与所述第三嵌套编码层连接；所述第四嵌套解码层还与所述第四嵌套编码层连接；所述第五嵌套解码层还与所述类别字体嵌入模块连接；

所述采用所述解码器对所述类别字体标识向量进行解码，得到特征融合图像，具体包括：

采用所述第五嵌套解码层，将所述类别字体标识向量及所述第五编码特征连接，并转换为第五解码特征；

采用所述第四嵌套解码层，将所述第五解码特征及所述第四编码特征连接，并转换为第四解码特征；

采用所述第三嵌套解码层，将所述第四解码特征及所述第三编码特征连接，并转换为第三解码特征；

采用所述第二嵌套解码层，将所述第三解码特征及所述第二编码特征连接，并转换为第二解码特征；

采用所述第一嵌套解码层，将所述第二解码特征及所述第一编码特征连接，并转换为第一解码特征；

根据所述源字体特征得到第六局部特征图；

根据所述第五解码特征得到第五局部特征图；

根据所述第四解码特征得到第四局部特征图；

根据所述第三解码特征得到第三局部特征图；

根据所述第二解码特征得到第二局部特征图；

根据所述第一解码特征得到第一局部特征图；