CN112163401B

CN112163401B - 基于压缩与激励的gan网络的汉字字体生成方法

Info

Publication number: CN112163401B
Application number: CN202011141157.8A
Authority: CN
Inventors: 王存睿; 丁阳; 战国栋
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-05-30
Anticipated expiration: 2040-10-22
Also published as: CN112163401A

Abstract

本发明公开了基于压缩与激励的GAN网络的汉字字体生成方法，包括：获取字体数据集，所述字体数据集包括两部分；构建字体风格转换网络，实现汉字字体样式的转换，得到字体图像；通过细节重构网络模型，采用端对端的深度卷积对所述字体图像进行细节重建，将汉字笔画语义与深度生成网络相融合；利用解码器中不同中间层的特征，为细节重构网络模型补充对抗训练；依次将所述字体数据集输入到对抗训练后的细节重构网络模型中，通过生成器输入相对应的完整目标字体；采用注意力机制对不同的尺度空间赋予不同的权重，获得不同的尺度空间的全局和综合表示，提升神经网络的感受可以进一步提高生成图像的质量。

Description

基于压缩与激励的GAN网络的汉字字体生成方法

技术领域

本发明涉及GAN网络模型技术领域，具体涉及基于压缩与激励的GAN网络的汉字字体生成方法。

背景技术

文字作为人类文明的重要载体，是文化的象征，是人类文明进步的重要标志，也是古往今来信息记录保存、传递发展的重要方式。与英文等其他文字不同的是，汉字是目前被唯一被广泛应用的以二维形式表现的文字。汉字是中国文化的一部分，字体则为汉字的载体，每个字的造型，比例，细节和风格根据应用场景的不同而发生着变化。字体不仅能够增强可读性、可理解性、可信度，还能够增加美感。不同的字体呈现的形态不同，为视觉增添新的表达方式的同时，也能为字体增加视觉美感和传播价值。

现在越来越多的人喜欢在不同情况下使用个性化字体。一方面，不同的字体风格可以灵活地表达个性，赋予文本反应时代的特征和标志。另一方面，个性化字体风格中的字形带来动态视觉感知，能够在各种社交网络媒体中吸引更多注意力。然而，创建一套完整的中文字体至今为止仍然是一项耗时且费力的工作，汉字字体不仅量大，而且复杂，一套字体设计周期长、反复工作量大，想要实现独特性表达几乎不能完成。

在人工智能计算机视觉领域内，深度学习的应用和发展取得了伟大成就。随着人工智能持续升温，人工智能技术的不断发展不仅提升生产力，也不断的创造新产品走进人们的生活。汉字字体生成因为其领域相对较小，而且成本硬件较低，使得汉字字体生成问题受到了越来越多的关注。在设计字体的过程中，使用人工智能的方式解决针对传统汉字设计工艺缓慢，耗时费力的问题。借助生成模型和计算机的运算，通过生成模型学习较少字体样本的风格，并根据少数字体样本的风格生成其他风格一致的字体，这将极大地减轻重复性的工作，提高字体设计的效率。其次通过这种方式能够降低字体库建立的门槛，使得创建属于私有的字体库成为可能。

基于深度学习的方法，可以将其看作是一个图像到图像的转换问题，基于深度神经网络模型可以直接从标准字体图像生成书法图像。生成的字体中通常包含模糊和重影的伪图像。这些方法对于具有复杂结构和或草书手写风格的字符，通常产生不合理笔画和不正确结构的结果。因汉字数量庞大，结构复杂，创建一套完整的个性化中文字体至今仍是一项艰巨的任务。在人工智能和计算机图形学领域，自动生成中文字体是一个有待解决的问题。基于计算机图形学方法仍然离不开人工干预，基于人工智能方法生成的字体图像往往存在不正确的笔画和严重的模糊问题。

发明内容

针对现有技术存在上述缺陷，本申请提供一种基于压缩与激励的GAN网络的汉字字体生成方法，将汉字笔画语义与深度生成网络相融合，使得模型生成的字体具有更合理笔画。

为实现上述目的，本申请的技术方案为：基于压缩与激励的GAN网络的汉字字体生成方法，包括：

获取字体数据集，所述字体数据集包括两部分，第一部分为不同样式的字体库数据集，第二部分为字符数据集；

构建字体风格转换网络，实现汉字字体样式的转换，得到字体图像；

通过细节重构网络模型，采用端对端的深度卷积对所述字体图像进行细节重建，将汉字笔画语义与深度生成网络相融合；利用解码器中不同中间层的特征，为细节重构网络模型补充对抗训练；

依次将所述字体数据集输入到对抗训练后的细节重构网络模型中，通过生成器输入相对应的完整目标字体；

根据模型评级体系评价字体生成质量。

进一步的，所述获取字体数据集，具体为：

随机挑选不同手写风格和设计风格的多个中文字库；

将字符数据集分为两部分，第一部分为按照使用频率选取的字符集；

再选取若干个字符补充字符集；

将选取包含所有33种类型的笔划字形结构复杂得字符作为第二部分；

得到最佳输入字符集。

进一步的，所述构建字体风格转换网络，实现汉字字体样式的转换，得到字体图像，具体为：

通过字体图像生成器G和字体图像鉴别器D构成字体风格转换网络；所述字体图像生成器G包括编码器与解码器，所述编码器与解码器为带跳跃连接的UNet结构；

卷积层的特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接，对应通道直接拼接后经过非线性激活层然后传入下一层；卷积层逐渐减小特征图的大小，反卷积层再逐渐增大特征图的大小，确保输入输出大小一致，卷积核大小都相同；

给定一对训练样本(x,y)，该训练样本包括同一字符的标准字体图像x和目标字体图像y；最终目标是:

min_Gmax_DV(D，G)＝E_y～pdata(y)[log D(x，y)]+E_x～pdata(x)[log(1-D(x，G(x)))]

其中，min_Gmax_DV(D,G)表示在给定G的情况下最大化V(D,G)求解D，然后固定D最小化V(D,G)求解G；E_y～pdata(y)表示对字体图像鉴别器D鉴别真实样本的能力的数学期望,E_x～pdata(x)表示字体图像生成器G欺骗鉴别器的能力的数学期望；logD(x，y)表示字体图像鉴别器D鉴别真实样本的能力，log(1-D(x,G(x)))表示字体图像生成器G欺骗鉴别器的能力；

采用3×3、5×5、7×7卷积核三种不同大小的卷积核获取空间信息，并采用注意力机制对不同的尺度空间赋予不同的权重，以获得选择权重的全局和综合表示；

对于输入的特征图X∈R^H×W×C，采用三个卷积层进行变换：F1:X→U¹∈R^H×W×C,F2:X→U²∈R^H×W×C和F3:X→U³∈R^H×W×C；其中X表示字体图像，H表示图像高度，W表示宽度，C表示通道，R表示实数范围，三种不同的卷积层F1、F2、F3的卷积核大小分别是3×3、5×5、7×7；每个卷积层均进行BatchNormalization处理，采用ReLU作为激活函数；采用元素求对三个卷积层的输出进行合并：

U＝U¹+U²+U³

其中U∈R^H×W×K，U表示对于三个不同卷积层输出的U1、U2、U3的合并；U的第k个特征图的统计信息通过平均池化操作求得：

其中，Fgp(U_k)表示对Uk做平均池化,U_k(i,j)表示图像矩阵；k表示维度；i,j表示二维数组中的一个元素；

然后采用全连接层将s进行降维：

z＝ReLu(BN(W_s))

其中BN表示批量标准化，W∈R^d×K，d为d＝max(K/16,32)，Ws表示s_k的集合；获得三种不同尺度空间下第k个特征图的的注意力值：

其中A,B,C∈R^K×d，a_k、b_k、c_k分别表示U1、U2、U3每个特征图的注意力值，A_kz是A_k的第z行，B_kz是B_k的第z行、C_kz是C_k的第z行；将三个不同尺度上的注意力特征图相加求得：

V_k＝a_k·U¹ _k+b_k·U² _k+c_k·U³ _k

其中V＝[V₁,V₂,...,V_K]，V_k∈R^H×W；通过不同的感受得到了不同的尺度空间的全局和综合表示，进一步提高生成字体图像的质量。

进一步的，采用四个卷积层对细节重构网络模型进行构建，具体为：

将生成器生成的字体图像X输入至第一卷积层F1中：

F₁(y)＝max(0，W₁*X+B₁)

其中W1代表卷积核的权重，B1代表偏置；W1的大小为c×f1×f1×n1，其中c是图像的通道数，f1是卷积核的大小，n₁是输出的特征图数量；第一层为每个像素提取n₁维特征向量，在第二个卷积层中，将第一层提取的n1维特征向量映射为n2维特征向量；

获取第二卷积层：

F₂(Y)＝max(0，W₂*F₁(Y)+B₂)

W₂的大小为n₁×1×1×n₂，B₂代表偏置，每个n2维特征向量都表示用于重构的细节纹理；

获取第三卷积层：

F₃(Y)＝max(0，W₃*F₂(Y)+B₃)

其中W₃的大小为n₂×f₃×f₃×c，B₃是c维偏置，在这层中f₃的大小设置为3；

第四卷积层采用1×1的卷积核以产生最终的清晰图像：

F(Y)＝W₄*F₃(Y)+B₄

最终输出的Y与输入时X维度相同，在模型的最后部分将Y与输入X进行对应像素相加，从而消除图像多余的重影和补充图像缺失的部分。

进一步的，依次将所述字体数据集输入到对抗训练后的细节重构网络模型中，通过生成器输入相对应的完整目标字体；

采用解码器和解码器架构作为生成器，编码器输入的是字体图像大小为255*255,所述编码器包含5个向下采样层,每层采用一个卷积核为5×5步长为2的卷积层以及ReLu激活函数,编码得到特征向量；

将分类好的笔画使用one-hot编码对类标签进行处理，为每个类创建相应的输出通道，通过空间特征变换(SFT)形成映射，映射变换得到笔画语义特征嵌入向量；

将所述笔画语义特征嵌入向量与所述特征向量进行连接；

把连接后的向量送到解码器﹐解码器包含5个向上采样层,每层采用一个卷积核为5×5步长为2的反卷积层以及ReLu激活函数,最终得到输出字体图像。

进一步的，根据模型评级体系评价字体生成质量，具体为：

给定两张字体图像图像x和y，这两张图像的SSIM按如下公式计算得出：

其中u_x表示x的平均值，u_y表示y的平均值，

表示x的方差，/>

表示y的方差，δ_xy表示x和y的协方差；c₁＝(k₁L)²、c₂＝(k₂L)²是用来维持稳定的常数，L是像素值的动态范围；k₁＝0.01,k₂＝0.03；

对每种字体选择相同的输入字符集作为实验字符集对神经网络进行训练，在生成的目标字体中选择相同的部分汉字字体图像计算SSIM值，最后取SSIM平均值作为改字体的最终SSIM值。

本发明能够取得以下技术效果：

1、汉字笔画语义与深度生成网络相融合，使得模型生成的字体具有更合理笔画；

2、字体生成任务分解为两个部分。第一部分为字体风格转换网络，主要实现汉字的样式信息改变，第二部分为细节重构网络模型，用以对第一部分生成的字体图像进行细节重建；

3、采用注意力机制对不同的尺度空间赋予不同的权重，获得不同的尺度空间的全局和综合表示，提升神经网络的感受可以进一步提高生成图像的质量；

4、利用从解码器中不同中间层提取的特征，为模型带来补充的对抗训练，促使生成器容易发现详细的局部差异，用来更好的优化生成器。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简要介绍：

图1是本发明的字体生成流程图；

图2是本发明的字体生成网络模型结构图；

图3是本发明的不同字体生成的SSIM值图表；

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述：以此为例对本申请做进一步的描述说明。显然，所描述的实施例仅仅是本发明中的一部分实施例，而不是全部实施例。

本实施例提供新型网络结构用于汉字字体生成，将字体生成任务分解为两个部分。第一部分为字体风格转换网络，实现汉字字体的样式转换。第二部分为构建细节重构网络模型，采用端对端的深度卷积对第一部分生成的字体图像进行细节重建。将汉字笔画语义与深度生成网络相融合，使得模型生成的字体具有更合理笔画。利用从解码器中不同中间层提取的特征，为模型带来补充的对抗训练，更好的优化生成器。

参照图1，一种基于压缩与激励的GAN网络的汉字字体生成方法，具体包括以下步骤：

步骤1，获取字体数据集，所述字体数据集包括两部分，第一部分为不同样式的字体库数据集，第二部分为字符数据集；

步骤11，由于在训练过程中需要用到大量的训练数据，而目前还没有用于字体生成实验的公开数据集。故随机挑选以不同的手写风格和设计风格的30个中文字库进行实验；

步骤12，使用的字符数据集也由两部分组成，第一部分为按照使用频率选取的字符集，具体为通过计算87亿字符构建的数据集中每个汉字的出现频率，按照降序对所有字符的使用率进行排序后，选取前200个字符；

步骤13，为了确保所有33种类型的笔划可以被写入至少一次，通过实验又选取100个字符作为字符集的补充；

步骤14，为了扩充数据集，将选取包含所有33种类型的笔划字形结构较为复杂得另外400个字符作为第二部分。

故获得另一个由700个常见字符组成的字符集，称之为系统的最佳输入字符集。在此设置下，网络可以有足够的样本，更有效的处理具有复杂结构或草书样式的字形。

步骤2，构建字体风格转换网络，实现汉字字体的样式转换；

步骤21，通过字体图像生成器G和字体图像鉴别器D构成字体风格转换网络；所述字体图像生成器G包括编码器与解码器，在生成器中的编码与解码部分为带跳跃连接的UNet结构，以便直接将信息从编码器连接到解码器；

步骤22，为了避免池化层会丢失图像的部分信息，去除网络中的池化层，采用全卷积的网络结构进行代替。卷积层的特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接，对应通道直接拼接后经过非线性激活层然后传入下一层。另一方面，卷积层逐渐减小特征图的大小，反卷积层再逐渐增大特征图的大小，最终确保输入输出大小一致，卷积核大小都设置为为3×3；

步骤23，以端到端方式训练字体图像生成器G和字体图像鉴别器D。给定一对训练样本(x,y)，该样本由同一字符的标准字体图像x和目标字体图像y组成。最终目标是:

min_G max_DV(D，G)＝E_y～pdata(y)[logD(x，y)]+E_x～pdata(x)[log(1-D(x，G(x)))]

对于生成器G而言，G的目标是为了生成更高质量的虚假字体图像来迷惑D，所以G的优化需要最小化对抗损失函数实现；

步骤24，由生成器G生成的字体图像还存在着不同笔画之间的位置结构不合理的情况。笔画相对位置信息对于字体的生成是至关重要的。在字体图像中字体的笔画位置与其他相邻的笔画位置具有较强的关联关系。其他笔画的摆位将会影响与之相邻的笔画摆位。在对字体图像处理时获取多尺度的空间信息，有利于字体图像笔画摆位的准确性。采用3×3、5×5、7×7卷积核三种不同大小的卷积核获取空间信息，并采用注意力机制对不同的尺度空间赋予不同的权重，以获得选择权重的全局和综合表示。

步骤25，对于输入的特征图X∈R^H×W×C，采用三个卷积层进行变换。F1:X→U¹∈R^H ^×W×C,F2:X→U²∈R^H×W×C和F3:X→U³∈R^H×W×C。其中F1，F2，F3的卷积核大小分别是3×3、5×5、7×7。每个卷积层均进行批量标准化BatchNormalization处理，ReLU作为激活函数。采用元素求对三个卷积层的输出进行合并：

U＝U¹+U²+U³

其中U∈R^H×W×K。对于U的第k个特征图，第k个特征图的统计信息可通过平均池化操作求得：

步骤26，然后采用全连接层将s进行降维：

z＝ReLu(BN(W_s))

V_k＝a_k·U¹ _k+b_k·U² _k+c_k·U³ _k

其中V＝[V1，V2，...，VK]，Vk∈R^H×W。通过不同的感受得到了不同的尺度空间的全局和综合表示，进一步提高生成字体图像的质量。

步骤3，构建细节重构网络模型，采用端对端的深度卷积对所述字体图像进行细节重建，将汉字笔画语义与深度生成网络相融合，使得模型生成的字体具有更合理笔画。利用从解码器中不同中间层提取的特征，为模型带来补充的对抗训练，更好的优化生成器，参照图2；

采用四个卷积层对细节重构网络模型进行构建，具体为：

步骤31，由于生成器生成的图像不可避免地具有一些轮廓上的缺失和模糊，因此使用端到端方式来消除重影和重建细节。将由生成器生成的字体图像X输入至第一层卷积F1中：

F₁(Y)＝max(0，W₁*X+B₁)

其中W1代表卷积核的权重，B1代表偏置。W1的大小为c×f1×f1×n1，其中c是图像的通道数，f1是卷积核的大小，在这层中f1的大小设置为9。较大的卷积核尺寸有利于获取像素的上下文关联信息。n₁是输出的特征图数量。第一层为每个像素提取n₁维特征向量。在第二个卷积层中，将第一层提取的n1维特征向量映射为n2维特征向量；

步骤32，获取第二卷积层：

F₂(Y)＝max(0，W₂*F₁(Y)+B₂)

W₂的大小为n₁×1×1×n₂，B₂同样为偏置，每个n₂维向量都表示用于重构的细节纹理；

步骤33，获取第三卷积层：

F₃(Y)＝max(0，W₃*F₂(Y)+B₃)

其中W₃的大小为n₂×f₃×f₃×c，而B₃是c维偏置。在这层中f₃的大小设置为3；

步骤34，第四卷积层采用1×1的卷积核以产生最终的清晰图像：

F(Y)＝W₄*F₃(Y)+B₄

最终输出的Y与输入时X维度相同。在模型的最后部分将Y与输入X进行对应像素相加，从而消除图像多余的重影和补充图像缺失的部分。

步骤4，依次将所述字体数据集输入到对抗训练后的细节重构网络模型中，通过生成器输入相对应的完整目标字体；

步骤41，采用解码器和解码器架构作为生成器，编码器输入的是字体图像大小为255*255，所述编码器包含5个向下采样层，每层采用一个卷积核为5×5步长为2的卷积层以及ReLu激活函数，编码得到特征向量；

步骤42，将分类好的笔画使用one-hot编码对类标签进行处理，为每个类创建相应的输出通道，通过空间特征变换(SFT)形成映射，映射变换得到笔画语义特征嵌入向量；

步骤43，将所述笔画语义特征嵌入向量与所述特征向量进行连接；

步骤44，把连接后的向量送到解码器，解码器包含5个向上采样层,每层采用一个卷积核为5×5步长为2的反卷积层以及ReLu激活函数,最终得到输出字体图像；

步骤5，根据模型评级体系评价字体生成质量

步骤51，参照图3，为量化的衡量生成的字体图像与原始图像的差别，采用SSIM作为量化评价指标。SSIM(structuralsimilarityindex),是超分辨实验中常用的一种指标，SSIM会通过亮度(luminance)、对比度(contrast)和结构(structure)三个比较量进行衡量。给定两张字体图像图像x和y，这两张图像的SSIM按如下公式计算得出：

其中u_x表示x的平均值，u_y表示y的平均值，

表示x的方差，/>

表示y的方差，δ_xy表示x和y的协方差。c₁＝(k₁L)²、c₂＝(k₂L)²是用来维持稳定的常数。L是像素值的动态范围。k₁＝0.01,k₂＝0.03。通过结构相似性作为一个衡量标准，该算法在不同字体生成上进行量化比较；

步骤52，采用宋体作为原始字体，另外12个简体作为目标字体。对每种字体选择相同的700个输入字符集作为实验字符集对神经网络进行训练。在生成的目标字体中选择相同的200个汉字字体图像计算他们的SSIM值，最后取SSIM平均值作为改字体的最终SSIM值。使用此方法生成的NSimSun字体SSIM高达0.962，表明此方法在字体生成上更加接近真实的目标字体。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.基于压缩与激励的GAN网络的汉字字体生成方法，其特征在于，包括：

构建字体风格转换网络，实现汉字字体样式的转换，得到字体图像；具体为：通过字体图像生成器G和字体图像鉴别器D构成字体风格转换网络；所述字体图像生成器G包括编码器与解码器，所述编码器与解码器为带跳跃连接的UNet结构；

min_Gmax_DV(D,G)＝E_y～pdata(y)[logD(x,y)]+E_x～pdata(x)[log(1-D(x,G(x)))]

对于输入的特征图X∈R^H×W×C，采用三个卷积层进行变换：F1:X→U¹∈R^H×W×C,F2:X→U²∈R^H×W×C和F3:X→U³∈R^H×W×C；其中X表示字体图像，H表示图像高度，W表示宽度，C表示通道，R表示实数范围，三种不同的卷积层F1、F2、F3的卷积核大小分别是3×3、5×5、7×7；每个卷积层均进行批量标准化处理，ReLU作为激活函数；采用元素求对三个卷积层的输出进行合并：

U＝U¹+U²+U³