CN113011337A

CN113011337A - 一种基于深度元学习的汉字字库生成方法及系统

Info

Publication number: CN113011337A
Application number: CN202110297468.1A
Authority: CN
Inventors: 武蕾; 陈旭; 孟雷; 孟祥旭
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-22
Anticipated expiration: 2041-03-19
Also published as: CN113011337B

Abstract

本公开提供了一种基于深度元学习的汉字字库生成方法及系统，在元训练阶段，模型通过随机的字体生成任务，在已有字体库中学习汉字结构的先验知识，来增强对有着少样本的新字体的泛化能力；在元训练阶段结束后，字体生成模型通过对抗训练的微调快速适应有着少样本的新字体的生成；仅需要极少的新字体的样本(0.47％)即可自动地生成有着大规模汉字的新的中文字体库。本公开针对少样本中文字体库的自动生成问题给出了一种可行有效的方法，极大地提高了字体库制作的效率和生成的中文字体的质量。

Description

一种基于深度元学习的汉字字库生成方法及系统

技术领域

本公开涉及计算机文字处理技术领域，特别涉及一种基于深度元学习的汉字字库生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

字库是外文字体、中文字体以及相关字符的电子文字字体集合库，被广泛用于计算机、网络及相关电子产品上。字体产品的数量在过去二十年中迅速增长，但现有的字体资源仍不能满足数字时代的多样化、个性化的需求。目前，字库的制作主要依靠专业设计师的手工作业。不像英语只包含少量的字符，中文字符集包含了大量的字符(在GB18030标准中有70244个字符)，并且很多汉字有着复杂的笔画和结构，汉字是字库制作中最为耗时的部分。汉字字库的自动生成一直是个困难的问题。

基于传统的计算机图形的方法大多是通过偏旁或笔画的复用来生成新的汉字字库，这些方法需要人工干预来保证笔画提取的正确性，效率较低。基于深度学习的方法能够以端到端的方式生成新的汉字字库，极大提高了字体生成的效率。但现有方法需要大量新字体的参考样本来训练，在样本较少的情况下会过拟合，产生模糊和不正确的笔画。因此亟需一种能通过少量参考样本生成完整汉字字库的技术，这能极大地提高新字体库制作的效率。

发明人发现，元学习要解决的问题是如何让机器利用过去学到的原理来解决新的任务。目前，随着深度学习的发展，深度元学习在少样本图像分类问题上取得了一定的成效，但是已有的元学习方法无法直接实现端到端的字体库快速生成，因此亟需一种能将元学习应用于字体生成任务上的技术，以此来解决少样本字体生成这一难题。

发明内容

为了解决现有技术的不足，本公开提供了一种基于深度元学习的汉字字库生成方法及系统，字体生成网络通过元训练充分学习已有字体库中字符结构的先验知识，然后再通过少量样本的学习来快速生成新汉字字库中所有的汉字图像，实现了源字体到新字体的快速风格迁移。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于深度元学习的汉字字库生成方法。

一种基于深度元学习的汉字字库生成方法，包括以下过程：

获取目标字体的样本图像和源内容库；

将获取的样本图像和源内容库中的源字符图像输入到预设字体生成模型中，得到对应的目标字体库；

其中，利用元训练通过随机字体生成任务，在已有字体库中学习汉字结构的先验知识，通过对抗训练的微调得到最终的预设字体生成模型。

作为可选的实施方式，预设字体生成模型包括内容编码器、风格编码器和解码器，内容编码器以源字符图像为源内容输入，风格编码器以样本图像为风格输入，解码器混合提取源内容特征和风格特征，得到目标字体库的汉字图像。

作为可选的实施方式，利用两层元优化训练策略对字体生成网络进行元训练，元训练中的一次元优化通过多个字体生成任务完成。

作为可选的实施方式，字体生成任务为生成具有相同字体样式的多个汉字图像，在元训练中，每个字体生成任务是动态的和随机的，包括：目标字体和源字体随机选择，并且不能相同；源字体和目标字体中的具体字符随机选择。

作为可选的实施方式，在元训练中，字体生成模型同时学习并适应多个字体生成任务，并以这种方式优化自身参数；

通过对每一个任务上的支持集的学习，根据指定步数的梯度下降得到适合当前任务的参数，字体生成模型使用这一适应性参数计算验证集上的损失；

对一次元优化中的多个任务执行上述操作，获得每个任务的验证集上的损失函数，并计算验证集上的各个任务的损失函数之和，以此优化模型参数直至收敛。

作为可选的实施方式，在元训练收敛后，得到字体生成模型更新后的参数，将字体生成模型作为生成器，与判别器组成一个生成对抗网络；

从元训练集中选择一种字体作为源字体，以新字体集中的一种字体为目标字体，组成一个新的配对训练集，通过对抗训练微调字体生成器，得到最终的新字体生成模型。

作为可选的实施方式，内容编码器和风格编码器的结构相同，且均包括六层卷积模块，解码器包括六层上采样模块，内容编码器的输入为单张字体图像，风格编码器的输入为多张字体图像。

本公开第二方面提供了一种基于深度元学习的汉字字库生成系统。

一种基于深度元学习的汉字字库生成系统，包括：

数据获取模块，被配置为：获取目标字体的样本图像和源字体库；

字体生成模块，被配置为：将获取的样本图像和源字体库中的源字符图像输入到预设字体生成模型中，得到对应的目标字体库；

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于深度元学习的汉字字库生成方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于深度元学习的汉字字库生成方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，将深度元学习与字体生成相结合，成功地将深度元学习应用到字体生成上，解决了少样本大规模中文字库生成这一问题。

2、本公开所述的方法、系统、介质或电子设备，提高了生成字符图像的质量，仅需要少量的(0.47％)目标字体上的参考样本就能自动地生成一个完整的目标中文字体库，极大地缩短字库制作周期，提高了制作效率，使得个性化字库的生成变得简单方便。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于深度元学习的汉字字库生成方法的流程示意图。

图2为本公开实施例1提供的基于深度元学习的汉字字库生成方法的简要示意图。

图3为本公开实施例1提供的用于元训练的字体生成任务组织方法的具体示例。

图4为本公开实施例1提供的基于深度元学习的汉字字库生成方法的流程图以及字体生成网络模型的详细结构示意图。

图5为本公开实施例1提供的基于深度元学习的汉字字库生成方法的算法伪代码示意图。

图6为本公开实施例1提供的方法对于有着不同大小的新字体训练集的测试集的生成表现示意图。

图7为本公开实施例1提供的方法与已有方法性能的对比示意图。

图8为本公开实施例1提供的方法对于从未见过的汉字的泛化能力的展示，并与已有方法的对比示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1和图2所示，本公开实施例1提供了一种基于深度元学习的汉字字库生成方法，包括以下过程：

步骤1：组织元训练数据集。

步骤2：搭建字体生成网络模型，模型由内容编码器、风格编码器和解码器构成。

步骤3：以一种两层元优化训练策略对字体生成网络进行元训练，元训练中的一次元优化通过多个字体生成任务完成。

步骤4：在元训练结束后，额外搭建一个判别器网络，将原来的字体生成网络作为生成器与判别器组成一个生成对抗网络。

步骤5：使用目标字体集中的少量样本训练字体生成对抗网络，以微调字体生成器使其适应新字体的生成。

步骤6：在微调结束后，即可得到能生成新字体的字体生成模型，用来生成新字库中所有的汉字。

步骤1中，创建字体数据集，划分出元训练集和新字体集。

步骤1.1：将收集的21种字体的TTF文件处理为GB2312所对应的字体样本图片，每种字体包含6763个汉字，图片大小均为256×256像素。

步骤1.2：从步骤1.1组织的数据集中随机选择12种字体作为元训练集，每种字体有6763个汉字图像，剩余的9种字体集用于测试。

步骤2中，搭建字体生成网络模型，模型由内容编码器、风格编码器和解码器构成，对于单张汉字图像的生成，内容编码器将一个属于源字体的字符图像作为源内容输入，风格编码器将7张属于目标字体的字符图像为风格输入，解码器混合提取的内容和风格特征后输出目标字体中的源内容汉字。

如图4所示，内容编码器和风格编码器的网络结构相同，都由六层卷积模块构成。二者的区别是内容编码器的输入是单张汉字图像，以图3中一个具体任务的支持集为例，支持集包含5张汉字图像，其输入尺寸是5×3×256×256。风格编码器的输入是7张汉字图像，输入尺寸是5×21×256×256。

编码器的第一层是一个卷积模块，具体配置是卷积核大小为3×3，stride为2，padding为1，其输出尺寸为5×64×128×128。

编码器的第二层是一个卷积模块，具体配置是激活函数LeakyReLU(0.2)，卷积核大小为3×3，stride为2，padding为1，归一化BatchNormalization，其输出尺寸为5×128×64×64。

编码器的第三层是一个卷积模块，具体配置是激活函数LeakyReLU(0.2)，卷积核大小为3×3，stride为2，padding为1，归一化BatchNormalization，其输出尺寸为5×256×32×32。

编码器的第四层是一个卷积模块，具体配置是激活函数LeakyReLU(0.2)，卷积核大小为3×3，stride为2，padding为1，归一化BatchNormalization，其输出尺寸为5×512×16×16。

编码器的第五层是一个卷积模块，具体配置是激活函数LeakyReLU(0.2)，卷积核大小为3×3，stride为2，padding为1，归一化BatchNormalization，其输出尺寸为5×512×8×8。

编码器的第六层是一个卷积模块，具体配置是激活函数LeakyReLU(0.2)，卷积核大小为3×3，stride为2，padding为1，其输出尺寸为5×512×4×4。

解码器的第一层是一个上采样模块，具体配置是激活函数ReLU(0.2)，Upsample(2,bilinear,True)，归一化BatchNormalization，其输入为内容编码器提取的内容特征与风格编码器提取的风格特征的组合，这个组合是通道维度上的拼接，其输入尺寸为5×1024×4×4，输出尺寸为5×512×8×8。

解码器的第二层是一个上采样模块，具体配置是激活函数ReLU(0.2)，Upsample(2,bilinear,True)，归一化BatchNormalization，其输出尺寸为5×512×16×16。

解码器的第三层是一个上采样模块，具体配置是激活函数ReLU(0.2)，Upsample(2,bilinear,True)，归一化BatchNormalization，其输出尺寸为5×256×32×32。

解码器的第四层是一个上采样模块，具体配置是激活函数ReLU(0.2)，Upsample(2,bilinear,True)，归一化BatchNormalization，其输出尺寸为5×128×64×64。

解码器的第五层是一个上采样模块，具体配置是激活函数ReLU(0.2)，Upsample(2,bilinear,True)，归一化BatchNormalization，其输出尺寸为5×64×128×128。

解码器的第六层是一个上采样模块，具体配置是激活函数ReLU(0.2)，Upsample(2,bilinear,True)，激活函数Tanh()，其输出尺寸为5×3×256×256。

如图4所示，字体生成网络有着10个skip-connection，分别连接两个编码器与解码器。

内容编码器与解码器有着5个skip-connection，以保证各个尺度的内容特征上字符内容的完整性。

风格编码器与解码器也有着5个skip-connection，以保证逐层给解码器提供字体风格信息指导。

步骤3中，从元训练集中随机采样字体生成任务，进行元训练。

字体生成任务指的是生成具有相同字体样式的多个目标汉字图像。一个任务公式化为T＝{C,S→R}，其中C和R分别泛指若干个源和目标字符图像，S代表一组属于目标字体样式的字符图像。

图3展示了在元训练阶段汉字生成任务的组织方式，C来自源字体，S和R来自目标字体。S由7个汉字图像组成，在C和R中分别有10个源和目标字符图像。T分为支持集和验证集。

模型通过支持集学习当前字体生成任务，获得模型对应的适应性参数，然后使用验证集评估其泛化表现。在元训练中，每个字体生成任务都是动态、随机地组织，包含两种含义：一是随机选择目标字体和源字体，并且两者不能相同；二是随机选择源字体和目标字体中的具体字符。本实施例使用随机的字体生成任务提高模型的泛化能力。

两层元优化训练策略如下：

在元训练中，本实施例使用元优化不断地优化模型参数直到收敛。每次元优化都使用3个从元训练集中随机采样的字体生成任务完成。本实施例使用G_θ来表示参数为θ的字体生成器。当模型学习3个任务中的第i个任务T_i时，参数θ变成θ′_i，适应当前任务T_i的参数θ′_i使用支持集通过m步梯度下降更新模型参数获得，对于其中的一步梯度下降，计算公式为：

这里模型参数更新的学习率α是0.0001，在获得适应当前任务的适应参数θ′_i后，用验证集评估其泛化表现，验证集上的loss函数为：

然后对一次元优化中的n个任务执行同样的上述操作，获得每个任务的验证集上的loss函数L_i _query，计算它们在验证集上的loss函数之和，元优化的目标函数如下：

元优化通过Adam优化器来对参数θ进行更新，其学习率是0.0001。

步骤4中，构建一个额外的判别器网络，判别器网络采用了一个三层的patchGAN的判别器，使用这个判别器与本实施例的字体生成器组成一个生成对抗网络用于学习新字体，这个判别器不经过任何训练直接随机初始化参数用于新字体生成的训练。

步骤5中，针对新字体生成的微调的具体步骤如下：

用θ′代表在元训练收敛到较好的水平后的字体生成器参数，从元训练集中选择一种字体作为源字体，以新字体集中的一种字体为目标字体，组成一个新的配对训练集，通过对抗训练使模型适应新字体的生成，本实施例用G′代表完成元训练的字体生成器，此时GAN的目标函数为：

L_GAN(G′,D)＝E_C,T[logD(C,R)]+E_C,S[log(1-D(C,G′(C,S)))]；

L1 loss为：

最终目标函数为：

图5总结了上述的包括元训练、微调的整个算法的流程。

步骤6中，使用获得的新字体生成器生成新字体库的全部字符图像：从新字体的训练样本中随便选择7个目标字体的样本图像输入风格编码器，然后以源字体库中的每个字符图像作为内容编码器的输入，使用最终得到的新字体生成模型来逐一自动化地生成目标字体库中所有的字符图像。

图6表明本实施例的方法对于极少的样本也有较好的表现。在新字体仅仅只有8个参考样本时，也能生成较为准确清晰的汉字。随着新字体训练样本的增多，本实施例提出的基于深度元学习的少样本汉字字库生成方法的性能也会不断提高。本实施例的方法不仅能解决少样本中文字体库的自动生成问题，同时也适用于有着正常样本量(较多样本)的汉字字库的生成。需要指出的是，已有的基于深度元学习的汉字字库生成方法，在少样本情况下，无法生成准确的笔画和清晰的汉字图像。并且在相同参考样本下，本实施例的方法生成汉字图像的质量始终优于已有基于深度元学习的汉字字库生成方法。

如图7、图8所示，本实施例提出的方法的性能超出已有方法，在少样本新字体生成上有着优秀的性能，仅通过32个样本的学习，就能生成有着高质量的汉字字库中全部的汉字图像。

图8中的汉字来自一个额外的字体数据集，这个数据集包含两种字体，每种字体20902个汉字，而元训练集中只包含6763个汉字，图8展示的结果是从未出现在元训练集中的汉字。这证明了本实施例提出的基于深度元学习的少样本汉字字库生成方法对于新的汉字也具有很强的泛化能力和优秀的性能。

实施例2：

本公开实施例2提供了一种基于深度元学习的汉字字库生成系统，包括：

所述系统的工作方法与实施例1提供的基于深度元学习的汉字字库生成方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于深度元学习的汉字字库生成方法中的步骤，所述步骤为：

获取目标字体的样本图像和源字体库；

将获取的样本图像和源字体库中的源字符图像输入到预设字体生成模型中，得到对应的目标字体库；

详细步骤与实施例1提供的基于深度元学习的汉字字库生成方法相同，这里不再赘述。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如本公开实施例1所述的基于深度元学习的汉字字库生成方法中的步骤，所述步骤为：

获取目标字体的样本图像和源字体库；

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于深度元学习的汉字字库生成方法，其特征在于：包括以下过程：

获取目标字体的样本图像和源内容库；

2.如权利要求1所述的基于深度元学习的汉字字库生成方法，其特征在于：

预设字体生成模型包括内容编码器、风格编码器和解码器，内容编码器以源字符图像为源内容输入，风格编码器以样本图像为风格输入，解码器混合提取源内容特征和风格特征，得到目标字体库的汉字图像。

3.如权利要求1所述的基于深度元学习的汉字字库生成方法，其特征在于：

利用两层元优化训练策略对字体生成网络进行元训练，元训练中的一次元优化通过多个字体生成任务完成。

4.如权利要求1任一项所述的基于深度元学习的汉字字库生成方法，其特征在于：

字体生成任务为生成具有相同字体样式的多个汉字图像，在元训练中，每个字体生成任务是动态的和随机的，包括：目标字体和源字体随机选择，并且不能相同；源字体和目标字体中的具体字符随机选择。

5.如权利要求1任一项所述的基于深度元学习的汉字字库生成方法，其特征在于：

在元训练中，字体生成模型同时学习并适应多个字体生成任务，并以这种方式优化自身参数；

6.如权利要求1所述的基于深度元学习的汉字字库生成方法，其特征在于：

在元训练收敛后，得到字体生成模型更新后的参数，将字体生成模型作为生成器，与判别器组成一个生成对抗网络；

7.如权利要求1所述的基于深度元学习的汉字字库生成方法，其特征在于：

内容编码器和风格编码器的结构相同，且均包括六层卷积模块，解码器包括六层上采样模块，内容编码器的输入为单张字体图像，风格编码器的输入为多张字体图像。

8.一种基于深度元学习的汉字字库生成系统，其特征在于：包括：

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于深度元学习的汉字字库生成方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于深度元学习的汉字字库生成方法中的步骤。