CN112163401B - 基于压缩与激励的gan网络的汉字字体生成方法 - Google Patents

基于压缩与激励的gan网络的汉字字体生成方法 Download PDF

Info

Publication number
CN112163401B
CN112163401B CN202011141157.8A CN202011141157A CN112163401B CN 112163401 B CN112163401 B CN 112163401B CN 202011141157 A CN202011141157 A CN 202011141157A CN 112163401 B CN112163401 B CN 112163401B
Authority
CN
China
Prior art keywords
font
image
layer
convolution
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011141157.8A
Other languages
English (en)
Other versions
CN112163401A (zh
Inventor
王存睿
丁阳
战国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202011141157.8A priority Critical patent/CN112163401B/zh
Publication of CN112163401A publication Critical patent/CN112163401A/zh
Application granted granted Critical
Publication of CN112163401B publication Critical patent/CN112163401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了基于压缩与激励的GAN网络的汉字字体生成方法,包括:获取字体数据集,所述字体数据集包括两部分;构建字体风格转换网络,实现汉字字体样式的转换,得到字体图像;通过细节重构网络模型,采用端对端的深度卷积对所述字体图像进行细节重建,将汉字笔画语义与深度生成网络相融合;利用解码器中不同中间层的特征,为细节重构网络模型补充对抗训练;依次将所述字体数据集输入到对抗训练后的细节重构网络模型中,通过生成器输入相对应的完整目标字体;采用注意力机制对不同的尺度空间赋予不同的权重,获得不同的尺度空间的全局和综合表示,提升神经网络的感受可以进一步提高生成图像的质量。

Description

基于压缩与激励的GAN网络的汉字字体生成方法
技术领域
本发明涉及GAN网络模型技术领域,具体涉及基于压缩与激励的GAN网络的汉字字体生成方法。
背景技术
文字作为人类文明的重要载体,是文化的象征,是人类文明进步的重要标志,也是古往今来信息记录保存、传递发展的重要方式。与英文等其他文字不同的是,汉字是目前被唯一被广泛应用的以二维形式表现的文字。汉字是中国文化的一部分,字体则为汉字的载体,每个字的造型,比例,细节和风格根据应用场景的不同而发生着变化。字体不仅能够增强可读性、可理解性、可信度,还能够增加美感。不同的字体呈现的形态不同,为视觉增添新的表达方式的同时,也能为字体增加视觉美感和传播价值。
现在越来越多的人喜欢在不同情况下使用个性化字体。一方面,不同的字体风格可以灵活地表达个性,赋予文本反应时代的特征和标志。另一方面,个性化字体风格中的字形带来动态视觉感知,能够在各种社交网络媒体中吸引更多注意力。然而,创建一套完整的中文字体至今为止仍然是一项耗时且费力的工作,汉字字体不仅量大,而且复杂,一套字体设计周期长、反复工作量大,想要实现独特性表达几乎不能完成。
在人工智能计算机视觉领域内,深度学习的应用和发展取得了伟大成就。随着人工智能持续升温,人工智能技术的不断发展不仅提升生产力,也不断的创造新产品走进人们的生活。汉字字体生成因为其领域相对较小,而且成本硬件较低,使得汉字字体生成问题受到了越来越多的关注。在设计字体的过程中,使用人工智能的方式解决针对传统汉字设计工艺缓慢,耗时费力的问题。借助生成模型和计算机的运算,通过生成模型学习较少字体样本的风格,并根据少数字体样本的风格生成其他风格一致的字体,这将极大地减轻重复性的工作,提高字体设计的效率。其次通过这种方式能够降低字体库建立的门槛,使得创建属于私有的字体库成为可能。
基于深度学习的方法,可以将其看作是一个图像到图像的转换问题,基于深度神经网络模型可以直接从标准字体图像生成书法图像。生成的字体中通常包含模糊和重影的伪图像。这些方法对于具有复杂结构和或草书手写风格的字符,通常产生不合理笔画和不正确结构的结果。因汉字数量庞大,结构复杂,创建一套完整的个性化中文字体至今仍是一项艰巨的任务。在人工智能和计算机图形学领域,自动生成中文字体是一个有待解决的问题。基于计算机图形学方法仍然离不开人工干预,基于人工智能方法生成的字体图像往往存在不正确的笔画和严重的模糊问题。
发明内容
针对现有技术存在上述缺陷,本申请提供一种基于压缩与激励的GAN网络的汉字字体生成方法,将汉字笔画语义与深度生成网络相融合,使得模型生成的字体具有更合理笔画。
为实现上述目的,本申请的技术方案为:基于压缩与激励的GAN网络的汉字字体生成方法,包括:
获取字体数据集,所述字体数据集包括两部分,第一部分为不同样式的字体库数据集,第二部分为字符数据集;
构建字体风格转换网络,实现汉字字体样式的转换,得到字体图像;
通过细节重构网络模型,采用端对端的深度卷积对所述字体图像进行细节重建,将汉字笔画语义与深度生成网络相融合;利用解码器中不同中间层的特征,为细节重构网络模型补充对抗训练;
依次将所述字体数据集输入到对抗训练后的细节重构网络模型中,通过生成器输入相对应的完整目标字体;
根据模型评级体系评价字体生成质量。
进一步的,所述获取字体数据集,具体为:
随机挑选不同手写风格和设计风格的多个中文字库;
将字符数据集分为两部分,第一部分为按照使用频率选取的字符集;
再选取若干个字符补充字符集;
将选取包含所有33种类型的笔划字形结构复杂得字符作为第二部分;
得到最佳输入字符集。
进一步的,所述构建字体风格转换网络,实现汉字字体样式的转换,得到字体图像,具体为:
通过字体图像生成器G和字体图像鉴别器D构成字体风格转换网络;所述字体图像生成器G包括编码器与解码器,所述编码器与解码器为带跳跃连接的UNet结构;
卷积层的特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接,对应通道直接拼接后经过非线性激活层然后传入下一层;卷积层逐渐减小特征图的大小,反卷积层再逐渐增大特征图的大小,确保输入输出大小一致,卷积核大小都相同;
给定一对训练样本(x,y),该训练样本包括同一字符的标准字体图像x和目标字体图像y;最终目标是:
minGmaxDV(D,G)=Ey~pdata(y)[log D(x,y)]+Ex~pdata(x)[log(1-D(x,G(x)))]
其中,minGmaxDV(D,G)表示在给定G的情况下最大化V(D,G)求解D,然后固定D最小化V(D,G)求解G;Ey~pdata(y)表示对字体图像鉴别器D鉴别真实样本的能力的数学期望,Ex~pdata(x)表示字体图像生成器G欺骗鉴别器的能力的数学期望;logD(x,y)表示字体图像鉴别器D鉴别真实样本的能力,log(1-D(x,G(x)))表示字体图像生成器G欺骗鉴别器的能力;
采用3×3、5×5、7×7卷积核三种不同大小的卷积核获取空间信息,并采用注意力机制对不同的尺度空间赋予不同的权重,以获得选择权重的全局和综合表示;
对于输入的特征图X∈RH×W×C,采用三个卷积层进行变换:F1:X→U1∈RH×W×C,F2:X→U2∈RH×W×C和F3:X→U3∈RH×W×C;其中X表示字体图像,H表示图像高度,W表示宽度,C表示通道,R表示实数范围,三种不同的卷积层F1、F2、F3的卷积核大小分别是3×3、5×5、7×7;每个卷积层均进行BatchNormalization处理,采用ReLU作为激活函数;采用元素求对三个卷积层的输出进行合并:
U=U1+U2+U3
其中U∈RH×W×K,U表示对于三个不同卷积层输出的U1、U2、U3的合并;U的第k个特征图的统计信息通过平均池化操作求得:
Figure BDA0002738306930000051
其中,Fgp(Uk)表示对Uk做平均池化,Uk(i,j)表示图像矩阵;k表示维度;i,j表示二维数组中的一个元素;
然后采用全连接层将s进行降维:
z=ReLu(BN(Ws))
其中BN表示批量标准化,W∈Rd×K,d为d=max(K/16,32),Ws表示sk的集合;获得三种不同尺度空间下第k个特征图的的注意力值:
Figure BDA0002738306930000052
Figure BDA0002738306930000053
Figure BDA0002738306930000054
其中A,B,C∈RK×d,ak、bk、ck分别表示U1、U2、U3每个特征图的注意力值,Akz是Ak的第z行,Bkz是Bk的第z行、Ckz是Ck的第z行;将三个不同尺度上的注意力特征图相加求得:
Vk=ak·U1 k+bk·U2 k+ck·U3 k
其中V=[V1,V2,...,VK],Vk∈RH×W;通过不同的感受得到了不同的尺度空间的全局和综合表示,进一步提高生成字体图像的质量。
进一步的,采用四个卷积层对细节重构网络模型进行构建,具体为:
将生成器生成的字体图像X输入至第一卷积层F1中:
F1(y)=max(0,W1*X+B1)
其中W1代表卷积核的权重,B1代表偏置;W1的大小为c×f1×f1×n1,其中c是图像的通道数,f1是卷积核的大小,n1是输出的特征图数量;第一层为每个像素提取n1维特征向量,在第二个卷积层中,将第一层提取的n1维特征向量映射为n2维特征向量;
获取第二卷积层:
F2(Y)=max(0,W2*F1(Y)+B2)
W2的大小为n1×1×1×n2,B2代表偏置,每个n2维特征向量都表示用于重构的细节纹理;
获取第三卷积层:
F3(Y)=max(0,W3*F2(Y)+B3)
其中W3的大小为n2×f3×f3×c,B3是c维偏置,在这层中f3的大小设置为3;
第四卷积层采用1×1的卷积核以产生最终的清晰图像:
F(Y)=W4*F3(Y)+B4
最终输出的Y与输入时X维度相同,在模型的最后部分将Y与输入X进行对应像素相加,从而消除图像多余的重影和补充图像缺失的部分。
进一步的,依次将所述字体数据集输入到对抗训练后的细节重构网络模型中,通过生成器输入相对应的完整目标字体;
采用解码器和解码器架构作为生成器,编码器输入的是字体图像大小为255*255,所述编码器包含5个向下采样层,每层采用一个卷积核为5×5步长为2的卷积层以及ReLu激活函数,编码得到特征向量;
将分类好的笔画使用one-hot编码对类标签进行处理,为每个类创建相应的输出通道,通过空间特征变换(SFT)形成映射,映射变换得到笔画语义特征嵌入向量;
将所述笔画语义特征嵌入向量与所述特征向量进行连接;
把连接后的向量送到解码器﹐解码器包含5个向上采样层,每层采用一个卷积核为5×5步长为2的反卷积层以及ReLu激活函数,最终得到输出字体图像。
进一步的,根据模型评级体系评价字体生成质量,具体为:
给定两张字体图像图像x和y,这两张图像的SSIM按如下公式计算得出:
Figure BDA0002738306930000071
其中ux表示x的平均值,uy表示y的平均值,
Figure BDA0002738306930000072
表示x的方差,/>
Figure BDA0002738306930000073
表示y的方差,δxy表示x和y的协方差;c1=(k1L)2、c2=(k2L)2是用来维持稳定的常数,L是像素值的动态范围;k1=0.01,k2=0.03;
对每种字体选择相同的输入字符集作为实验字符集对神经网络进行训练,在生成的目标字体中选择相同的部分汉字字体图像计算SSIM值,最后取SSIM平均值作为改字体的最终SSIM值。
本发明能够取得以下技术效果:
1、汉字笔画语义与深度生成网络相融合,使得模型生成的字体具有更合理笔画;
2、字体生成任务分解为两个部分。第一部分为字体风格转换网络,主要实现汉字的样式信息改变,第二部分为细节重构网络模型,用以对第一部分生成的字体图像进行细节重建;
3、采用注意力机制对不同的尺度空间赋予不同的权重,获得不同的尺度空间的全局和综合表示,提升神经网络的感受可以进一步提高生成图像的质量;
4、利用从解码器中不同中间层提取的特征,为模型带来补充的对抗训练,促使生成器容易发现详细的局部差异,用来更好的优化生成器。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简要介绍:
图1是本发明的字体生成流程图;
图2是本发明的字体生成网络模型结构图;
图3是本发明的不同字体生成的SSIM值图表;
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。显然,所描述的实施例仅仅是本发明中的一部分实施例,而不是全部实施例。
本实施例提供新型网络结构用于汉字字体生成,将字体生成任务分解为两个部分。第一部分为字体风格转换网络,实现汉字字体的样式转换。第二部分为构建细节重构网络模型,采用端对端的深度卷积对第一部分生成的字体图像进行细节重建。将汉字笔画语义与深度生成网络相融合,使得模型生成的字体具有更合理笔画。利用从解码器中不同中间层提取的特征,为模型带来补充的对抗训练,更好的优化生成器。
参照图1,一种基于压缩与激励的GAN网络的汉字字体生成方法,具体包括以下步骤:
步骤1,获取字体数据集,所述字体数据集包括两部分,第一部分为不同样式的字体库数据集,第二部分为字符数据集;
步骤11,由于在训练过程中需要用到大量的训练数据,而目前还没有用于字体生成实验的公开数据集。故随机挑选以不同的手写风格和设计风格的30个中文字库进行实验;
步骤12,使用的字符数据集也由两部分组成,第一部分为按照使用频率选取的字符集,具体为通过计算87亿字符构建的数据集中每个汉字的出现频率,按照降序对所有字符的使用率进行排序后,选取前200个字符;
步骤13,为了确保所有33种类型的笔划可以被写入至少一次,通过实验又选取100个字符作为字符集的补充;
步骤14,为了扩充数据集,将选取包含所有33种类型的笔划字形结构较为复杂得另外400个字符作为第二部分。
故获得另一个由700个常见字符组成的字符集,称之为系统的最佳输入字符集。在此设置下,网络可以有足够的样本,更有效的处理具有复杂结构或草书样式的字形。
步骤2,构建字体风格转换网络,实现汉字字体的样式转换;
步骤21,通过字体图像生成器G和字体图像鉴别器D构成字体风格转换网络;所述字体图像生成器G包括编码器与解码器,在生成器中的编码与解码部分为带跳跃连接的UNet结构,以便直接将信息从编码器连接到解码器;
步骤22,为了避免池化层会丢失图像的部分信息,去除网络中的池化层,采用全卷积的网络结构进行代替。卷积层的特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接,对应通道直接拼接后经过非线性激活层然后传入下一层。另一方面,卷积层逐渐减小特征图的大小,反卷积层再逐渐增大特征图的大小,最终确保输入输出大小一致,卷积核大小都设置为为3×3;
步骤23,以端到端方式训练字体图像生成器G和字体图像鉴别器D。给定一对训练样本(x,y),该样本由同一字符的标准字体图像x和目标字体图像y组成。最终目标是:
minG maxDV(D,G)=Ey~pdata(y)[logD(x,y)]+Ex~pdata(x)[log(1-D(x,G(x)))]
对于生成器G而言,G的目标是为了生成更高质量的虚假字体图像来迷惑D,所以G的优化需要最小化对抗损失函数实现;
步骤24,由生成器G生成的字体图像还存在着不同笔画之间的位置结构不合理的情况。笔画相对位置信息对于字体的生成是至关重要的。在字体图像中字体的笔画位置与其他相邻的笔画位置具有较强的关联关系。其他笔画的摆位将会影响与之相邻的笔画摆位。在对字体图像处理时获取多尺度的空间信息,有利于字体图像笔画摆位的准确性。采用3×3、5×5、7×7卷积核三种不同大小的卷积核获取空间信息,并采用注意力机制对不同的尺度空间赋予不同的权重,以获得选择权重的全局和综合表示。
步骤25,对于输入的特征图X∈RH×W×C,采用三个卷积层进行变换。F1:X→U1∈RH ×W×C,F2:X→U2∈RH×W×C和F3:X→U3∈RH×W×C。其中F1,F2,F3的卷积核大小分别是3×3、5×5、7×7。每个卷积层均进行批量标准化BatchNormalization处理,ReLU作为激活函数。采用元素求对三个卷积层的输出进行合并:
U=U1+U2+U3
其中U∈RH×W×K。对于U的第k个特征图,第k个特征图的统计信息可通过平均池化操作求得:
Figure BDA0002738306930000111
步骤26,然后采用全连接层将s进行降维:
z=ReLu(BN(Ws))
其中BN表示批量标准化,W∈Rd×K,d为d=max(K/16,32),Ws表示sk的集合;获得三种不同尺度空间下第k个特征图的的注意力值:
Figure BDA0002738306930000112
Figure BDA0002738306930000113
Figure BDA0002738306930000114
其中A,B,C∈RK×d,ak、bk、ck分别表示U1、U2、U3每个特征图的注意力值,Akz是Ak的第z行,Bkz是Bk的第z行、Ckz是Ck的第z行;将三个不同尺度上的注意力特征图相加求得:
Vk=ak·U1 k+bk·U2 k+ck·U3 k
其中V=[V1,V2,...,VK],Vk∈RH×W。通过不同的感受得到了不同的尺度空间的全局和综合表示,进一步提高生成字体图像的质量。
步骤3,构建细节重构网络模型,采用端对端的深度卷积对所述字体图像进行细节重建,将汉字笔画语义与深度生成网络相融合,使得模型生成的字体具有更合理笔画。利用从解码器中不同中间层提取的特征,为模型带来补充的对抗训练,更好的优化生成器,参照图2;
采用四个卷积层对细节重构网络模型进行构建,具体为:
步骤31,由于生成器生成的图像不可避免地具有一些轮廓上的缺失和模糊,因此使用端到端方式来消除重影和重建细节。将由生成器生成的字体图像X输入至第一层卷积F1中:
F1(Y)=max(0,W1*X+B1)
其中W1代表卷积核的权重,B1代表偏置。W1的大小为c×f1×f1×n1,其中c是图像的通道数,f1是卷积核的大小,在这层中f1的大小设置为9。较大的卷积核尺寸有利于获取像素的上下文关联信息。n1是输出的特征图数量。第一层为每个像素提取n1维特征向量。在第二个卷积层中,将第一层提取的n1维特征向量映射为n2维特征向量;
步骤32,获取第二卷积层:
F2(Y)=max(0,W2*F1(Y)+B2)
W2的大小为n1×1×1×n2,B2同样为偏置,每个n2维向量都表示用于重构的细节纹理;
步骤33,获取第三卷积层:
F3(Y)=max(0,W3*F2(Y)+B3)
其中W3的大小为n2×f3×f3×c,而B3是c维偏置。在这层中f3的大小设置为3;
步骤34,第四卷积层采用1×1的卷积核以产生最终的清晰图像:
F(Y)=W4*F3(Y)+B4
最终输出的Y与输入时X维度相同。在模型的最后部分将Y与输入X进行对应像素相加,从而消除图像多余的重影和补充图像缺失的部分。
步骤4,依次将所述字体数据集输入到对抗训练后的细节重构网络模型中,通过生成器输入相对应的完整目标字体;
步骤41,采用解码器和解码器架构作为生成器,编码器输入的是字体图像大小为255*255,所述编码器包含5个向下采样层,每层采用一个卷积核为5×5步长为2的卷积层以及ReLu激活函数,编码得到特征向量;
步骤42,将分类好的笔画使用one-hot编码对类标签进行处理,为每个类创建相应的输出通道,通过空间特征变换(SFT)形成映射,映射变换得到笔画语义特征嵌入向量;
步骤43,将所述笔画语义特征嵌入向量与所述特征向量进行连接;
步骤44,把连接后的向量送到解码器,解码器包含5个向上采样层,每层采用一个卷积核为5×5步长为2的反卷积层以及ReLu激活函数,最终得到输出字体图像;
步骤5,根据模型评级体系评价字体生成质量
步骤51,参照图3,为量化的衡量生成的字体图像与原始图像的差别,采用SSIM作为量化评价指标。SSIM(structuralsimilarityindex),是超分辨实验中常用的一种指标,SSIM会通过亮度(luminance)、对比度(contrast)和结构(structure)三个比较量进行衡量。给定两张字体图像图像x和y,这两张图像的SSIM按如下公式计算得出:
Figure BDA0002738306930000141
其中ux表示x的平均值,uy表示y的平均值,
Figure BDA0002738306930000142
表示x的方差,/>
Figure BDA0002738306930000143
表示y的方差,δxy表示x和y的协方差。c1=(k1L)2、c2=(k2L)2是用来维持稳定的常数。L是像素值的动态范围。k1=0.01,k2=0.03。通过结构相似性作为一个衡量标准,该算法在不同字体生成上进行量化比较;
步骤52,采用宋体作为原始字体,另外12个简体作为目标字体。对每种字体选择相同的700个输入字符集作为实验字符集对神经网络进行训练。在生成的目标字体中选择相同的200个汉字字体图像计算他们的SSIM值,最后取SSIM平均值作为改字体的最终SSIM值。使用此方法生成的NSimSun字体SSIM高达0.962,表明此方法在字体生成上更加接近真实的目标字体。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (4)

1.基于压缩与激励的GAN网络的汉字字体生成方法,其特征在于,包括:
获取字体数据集,所述字体数据集包括两部分,第一部分为不同样式的字体库数据集,第二部分为字符数据集;
构建字体风格转换网络,实现汉字字体样式的转换,得到字体图像;具体为:通过字体图像生成器G和字体图像鉴别器D构成字体风格转换网络;所述字体图像生成器G包括编码器与解码器,所述编码器与解码器为带跳跃连接的UNet结构;
卷积层的特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接,对应通道直接拼接后经过非线性激活层然后传入下一层;卷积层逐渐减小特征图的大小,反卷积层再逐渐增大特征图的大小,确保输入输出大小一致,卷积核大小都相同;
给定一对训练样本(x,y),该训练样本包括同一字符的标准字体图像x和目标字体图像y;最终目标是:
minGmaxDV(D,G)=Ey~pdata(y)[logD(x,y)]+Ex~pdata(x)[log(1-D(x,G(x)))]
其中,minGmaxDV(D,G)表示在给定G的情况下最大化V(D,G)求解D,然后固定D最小化V(D,G)求解G;Ey~pdata(y)表示对字体图像鉴别器D鉴别真实样本的能力的数学期望,Ex~pdata(x)表示字体图像生成器G欺骗鉴别器的能力的数学期望;logD(x,y)表示字体图像鉴别器D鉴别真实样本的能力,log(1-D(x,G(x)))表示字体图像生成器G欺骗鉴别器的能力;
采用3×3、5×5、7×7卷积核三种不同大小的卷积核获取空间信息,并采用注意力机制对不同的尺度空间赋予不同的权重,以获得选择权重的全局和综合表示;
对于输入的特征图X∈RH×W×C,采用三个卷积层进行变换:F1:X→U1∈RH×W×C,F2:X→U2∈RH×W×C和F3:X→U3∈RH×W×C;其中X表示字体图像,H表示图像高度,W表示宽度,C表示通道,R表示实数范围,三种不同的卷积层F1、F2、F3的卷积核大小分别是3×3、5×5、7×7;每个卷积层均进行批量标准化处理,ReLU作为激活函数;采用元素求对三个卷积层的输出进行合并:
U=U1+U2+U3
其中U∈RH×W×K,U表示对于三个不同卷积层输出的U1、U2、U3的合并;U的第k个特征图的统计信息通过平均池化操作求得:
Figure FDA0004189936570000021
其中,Fgp(Uk)表示对Uk做平均池化,Uk(i,j)表示图像矩阵;k表示维度;i,j表示二维数组中的一个元素;
然后采用全连接层将s进行降维:
z=ReLU(BN(Ws))
其中BN表示批量标准化,W∈Rd×K,d为d=max(K/16,32),Ws表示sk的集合;获得三种不同尺度空间下第k个特征图的的注意力值:
Figure FDA0004189936570000022
Figure FDA0004189936570000023
/>
Figure FDA0004189936570000024
其中A,B,C∈RK×d,ak、bk、ck分别表示U1、U2、U3每个特征图的注意力值,Akz是Ak的第z行,Bkz是Bk的第z行、Ckz是Ck的第z行;将三个不同尺度上的注意力特征图相加求得:
Vk=ak·U1 k+bk·U2 k+ck·U3 k
其中V=[V1,V2,...,VK],Vk∈RH×W
通过细节重构网络模型,采用端对端的深度卷积对所述字体图像进行细节重建,将汉字笔画语义与深度生成网络相融合;利用解码器中不同中间层的特征,为细节重构网络模型补充对抗训练;采用四个卷积层对细节重构网络模型进行构建,具体为:
将生成器生成的字体图像X输入至第一卷积层F1中:
F1(Y)=max(0,W1*X+B1)
其中W1代表卷积核的权重,B1代表偏置;W1的大小为c×f1×f1×n1,其中c是图像的通道数,f1是卷积核的大小,n1是输出的特征图数量;第一层为每个像素提取n1维特征向量,在第二个卷积层中,将第一层提取的n1维特征向量映射为n2维特征向量;
获取第二卷积层:
F2(Y)=max(0,W2*F1(Y)+B2)
W2的大小为n1×1×1×n2,B2代表偏置,每个n2维特征向量都表示用于重构的细节纹理;
获取第三卷积层:
F3(Y)=max(0,W3*F2(Y)+B3)
其中W3的大小为n2×f3×f3×c,B3是c维偏置,在这层中f3的大小设置为3;
第四卷积层采用1×1的卷积核以产生最终的清晰图像:
F(Y)=W4*F3(Y)+B4
最终输出的Y与输入时X维度相同,在模型的最后部分将Y与输入X进行对应像素相加,从而消除图像多余的重影和补充图像缺失的部分;
依次将所述字体数据集输入到对抗训练后的细节重构网络模型中,通过生成器输入相对应的完整目标字体;
根据模型评级体系评价字体生成质量。
2.根据权利要求1所述基于压缩与激励的GAN网络的汉字字体生成方法,其特征在于,所述获取字体数据集,具体为:
随机挑选不同手写风格和设计风格的多个中文字库;
将字符数据集分为两部分,第一部分为按照使用频率选取的字符集;
再选取若干个字符补充字符集;
将选取包含所有33种类型的笔划字形结构复杂得字符作为第二部分;
得到最佳输入字符集。
3.根据权利要求1所述基于压缩与激励的GAN网络的汉字字体生成方法,其特征在于,依次将所述字体数据集输入到对抗训练后的细节重构网络模型中,通过生成器输入相对应的完整目标字体;
采用解码器和解码器架构作为生成器,编码器输入的是字体图像大小为255*255,所述编码器包含5个向下采样层,每层采用一个卷积核为5×5步长为2的卷积层以及ReLu激活函数,编码得到特征向量;
将分类好的笔画使用one-hot编码对类标签进行处理,为每个类创建相应的输出通道,通过空间特征变换形成映射,映射变换得到笔画语义特征嵌入向量;
将所述笔画语义特征嵌入向量与所述特征向量进行连接;
把连接后的向量送到解码器﹐解码器包含5个向上采样层,每层采用一个卷积核为5×5步长为2的反卷积层以及ReLu激活函数,最终得到输出字体图像。
4.根据权利要求1所述基于压缩与激励的GAN网络的汉字字体生成方法,其特征在于,根据模型评级体系评价字体生成质量,具体为:
给定两张字体图像图像x和y,这两张图像的SSIM按如下公式计算得出:
Figure FDA0004189936570000051
其中ux表示x的平均值,uy表示y的平均值,
Figure FDA0004189936570000052
表示x的方差,/>
Figure FDA0004189936570000053
表示y的方差,δxy表示x和y的协方差;c1=(k1L)2、c2=(k2L)2是用来维持稳定的常数,L是像素值的动态范围;k1=0.01,k2=0.03;
对每种字体选择相同的输入字符集作为实验字符集对神经网络进行训练,在生成的目标字体中选择相同的部分汉字字体图像计算SSIM值,最后取SSIM平均值作为改字体的最终SSIM值。
CN202011141157.8A 2020-10-22 2020-10-22 基于压缩与激励的gan网络的汉字字体生成方法 Active CN112163401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011141157.8A CN112163401B (zh) 2020-10-22 2020-10-22 基于压缩与激励的gan网络的汉字字体生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011141157.8A CN112163401B (zh) 2020-10-22 2020-10-22 基于压缩与激励的gan网络的汉字字体生成方法

Publications (2)

Publication Number Publication Date
CN112163401A CN112163401A (zh) 2021-01-01
CN112163401B true CN112163401B (zh) 2023-05-30

Family

ID=73866049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011141157.8A Active CN112163401B (zh) 2020-10-22 2020-10-22 基于压缩与激励的gan网络的汉字字体生成方法

Country Status (1)

Country Link
CN (1) CN112163401B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733756B (zh) * 2021-01-15 2023-01-20 成都大学 一种基于w散度对抗网络的遥感图像语义分割方法
CN113962192B (zh) * 2021-04-28 2022-11-15 江西师范大学 汉字字体生成模型的生成方法、汉字字体生成方法及装置
CN113140017B (zh) * 2021-04-30 2023-09-15 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113449787B (zh) * 2021-06-23 2022-12-09 西安交通大学 基于汉字笔画结构的字体库补全方法及系统
CN114511475B (zh) * 2022-04-21 2022-08-02 天津大学 一种基于改进Cycle GAN的图像生成方法
CN117252154B (zh) * 2023-11-20 2024-01-23 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN110533737A (zh) * 2019-08-19 2019-12-03 大连民族大学 基于结构引导汉字字体生成的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10515295B2 (en) * 2017-10-27 2019-12-24 Adobe Inc. Font recognition using triplet loss neural network training
US10878298B2 (en) * 2019-03-06 2020-12-29 Adobe Inc. Tag-based font recognition by utilizing an implicit font classification attention neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN110533737A (zh) * 2019-08-19 2019-12-03 大连民族大学 基于结构引导汉字字体生成的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于生成对抗网络的风格化书法图像生成;王晓红;卢辉;麻祥才;;包装工程(第11期);全文 *

Also Published As

Publication number Publication date
CN112163401A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163401B (zh) 基于压缩与激励的gan网络的汉字字体生成方法
CN111210435B (zh) 一种基于局部和全局特征增强模块的图像语义分割方法
Lopes et al. A learned representation for scalable vector graphics
CN110276402B (zh) 一种基于深度学习语义边界增强的盐体识别方法
CN112001960B (zh) 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN109903301B (zh) 一种基于多级特征信道优化编码的图像轮廓检测方法
CN111767979A (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN108804397A (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN114140786B (zh) 基于HRNet编码与双分支解码的场景文本识别方法
CN113449787B (zh) 基于汉字笔画结构的字体库补全方法及系统
CN114581356B (zh) 基于风格迁移数据增广的图像增强模型泛化方法
CN115565056A (zh) 基于条件生成对抗网络的水下图像增强方法及系统
CN111563563A (zh) 一种手写体识别的联合数据的增强方法
CN115471611A (zh) 一种提升3dmm人脸模型视觉效果的方法
Zeng et al. Self-attention learning network for face super-resolution
CN113963232A (zh) 一种基于注意力学习的网络图数据提取方法
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
Liu et al. FontTransformer: Few-shot high-resolution Chinese glyph image synthesis via stacked transformers
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN112966672A (zh) 一种复杂背景下的手势识别方法
CN117292017A (zh) 一种草图到图片跨域合成方法、系统及设备
CN114299184B (zh) 基于语义匹配的藏式建筑彩绘线稿图上色方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant