CN109635883B - 基于深度堆叠网络的结构信息指导的中文字库生成方法 - Google Patents

基于深度堆叠网络的结构信息指导的中文字库生成方法 Download PDF

Info

Publication number
CN109635883B
CN109635883B CN201811376244.4A CN201811376244A CN109635883B CN 109635883 B CN109635883 B CN 109635883B CN 201811376244 A CN201811376244 A CN 201811376244A CN 109635883 B CN109635883 B CN 109635883B
Authority
CN
China
Prior art keywords
style
chinese character
skeleton
network
writing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811376244.4A
Other languages
English (en)
Other versions
CN109635883A (zh
Inventor
连宙辉
江月
唐英敏
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201811376244.4A priority Critical patent/CN109635883B/zh
Publication of CN109635883A publication Critical patent/CN109635883A/zh
Application granted granted Critical
Publication of CN109635883B publication Critical patent/CN109635883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明公布了一种手写体中文字库的自动生成方法,基于深度堆叠网络和结构信息指导,通过书写轨迹合成阶段和字体风格渲染阶段,采用两阶段的卷积神经网络G对汉字骨架流场进行预测;首先从用户书写的少量手写体汉字对书写风格进行学习,从而合成未书写汉字的书写轨迹;并渲染为目标的手写体风格;再生成具备该用户书写风格的完整的GB2312中文手写体字库文件。本发明方法可实现同时保证生成字形的结构准确性和风格一致性,简单高效,成本低,质量高,能够满足普通人快速制作个性化手写体字库的实际应用需求。

Description

基于深度堆叠网络的结构信息指导的中文字库生成方法
技术领域
本发明属于计算机图形与图像处理、人工智能和深度学习技术领域,涉及中文文字处理技术,尤其涉及一种基于深度堆叠网络的结构信息指导的手写体中文字库自动生成方法,利用中文汉字结构信息等先验知识和深度神经网络,学习书写风格并生成完整的中文字库。
背景技术
个性化字体使得信息传播更加生动、直观。相比于规范的印刷字体,越多越多的人希望在电子移动设备中使用个性化字体,尤其是手写体字体,来进行沟通和交流。一方面,个性化字体能将文本渲染为特有的书写风格,更加灵活地表达书写者的风格和感情;另一方面,个性化字体的视觉效果使得书写者在各种社交网络媒体中受到更多的关注。
目前来说,手写体中文字库的生成仍然是一件费时费力的工作。主要的原因包括:1)中文汉字结构复杂,即使是同一个汉字,不同书写者的书写风格差异大;2)英语或拉丁语字符集只包含极少量的字符,但是中文字符数量庞大,例如,最常用的GB2312字符集合包含6763个汉字;3)当前在电子设备上可用的手写字体大部分是商业字体,它们由专业的字体设计师设计,每个字符都需要精细的调整。因此,对于普通人来说,快速制作手写体字库是一件很有挑战的任务。
当前的汉字生成技术主要包括两大类,基于计算机图形学的方法和基于深度学习的方法。
基于计算机图形学的方法利用中文字符的结构相关性,复用输入字符集合的部件来合成未书写的汉字。输入集合的字符首先被拆分为预先定义好的笔画或者部件,然后,未书写的汉字通过提取的部件进行合成。然而,这一类方法通常需要人工设计大量的合成规则来优化部件的选择和复用过程。
基于深度学习的方法使得汉字生成能够通过端到端的方法解决。一方面,字体生成可以被当作风格迁移问题,带有参考字体风格的汉字被迁移到一种特定的手写体风格,同时尽量保证字符内容的一致性。另一方面,随着生成对抗网络的发展,可以得到更加逼真和高质量的汉字。但是,整个生成过程具有不可控性和不可预测性,模糊和虚假边缘在生成的汉字图像中难以避免。除此之外,对于结构复杂或者书写风格潦草的汉字,端到端的方法经常得到不合理的笔画甚至错误的汉字结构。
发明内容
为了克服上述现有技术的不足,本发明将汉字的领域知识和深度神经网络进行结合,提出了一种基于深度堆叠网络的结构信息指导的手写体中文字库自动生成方法,能够解决现有的基于计算机图形学的方法和基于深度学习的方法各自的缺陷。
在本发明方法中,字体生成任务被分解为两个子任务(两个阶段),书写轨迹的合成和字体风格的渲染。可以从用户书写的少量手写体汉字对书写风格进行学习,从而合成未书写汉字的书写轨迹,并渲染为目标的手写体风格,最后可以生成具备该用户书写风格的完整的GB2312(包含6763个汉字)中文手写体字库文件。第一阶段,每个手写体汉字字符被表示为一系列拆分好笔画的书写轨迹,通过一个多级的基于卷积神经网络的模型将书写轨迹从参考字体风格迁移到目标字体风格;第二阶段,合成的骨架图像通过一个基于生成对抗网络的模型恢复汉字形状细节,尤其是在字符的轮廓边缘。最后,本发明可以生成用户未生书写的汉字,得到包括6763个汉字的手写体中文字库。
为了实现上述目的,本发明采用的技术方案如下:
一种手写体中文字库自动生成方法,该方法基于深度堆叠网络和结构信息指导,通过书写轨迹合成阶段和字体风格渲染阶段,从用户书写的少量手写体汉字对书写风格进行学习,从而合成未书写汉字的书写轨迹,并渲染为目标的手写体风格,最后生成具备该用户书写风格的完整的GB2312中文手写体字库文件;
主要包含以下步骤:
第一步,获取指定输入字符集合的汉字图像;
用户书写指定输入字符集合的汉字,拍照或扫描成图片;或者在手机、平板的应用程序上书写一定数量的汉字;
第二步,将汉字图像进行切分,获得多个单个汉字图像,并将单个汉字图像的大小归一化到一定尺寸;在发明具体实施时,单个汉字图像归一化到320×320;
第三步,利用汉字笔画自动提取技术或者人工标注的方法获得每个汉字的笔画书写轨迹;
第四步,基于非均匀采样算法,对于每个汉字每个笔画,采样相同数目的骨架点坐标,建立参考风格和目标风格书写轨迹线上点的对应关系,并将每个笔画的骨架点连接成线得到单像素宽度的骨架图像,然后膨胀为一定宽度的汉字骨架图像;
第五步,通过一个多级的深度卷积神经网络(本发明中简称为骨架变形网络),学习得到从参考风格骨架到目标风格骨架的变换关系。对于用户未书写的汉字,通过该变换关系,合成未书写汉字的笔画轨迹,得到汉字骨架图像;
第六步,基于前一步的汉字骨架图像,采用另一个深度卷积神经网络(本发明中简称为风格渲染网络),恢复笔画轮廓线上风格细节,生成用户未书写的其他所有汉字的字形图像;
第七步,将第二步中该用户书写的指定字符集合的汉字图像和第六步中自动生成的汉字图像结合,得到GB2312字库完整的6763个汉字的图像集合,然后进行矢量化操作,生成具备用户书写风格的计算机字库文件。
具体而言,在第一步中,输入字符集合采用文献(Lian Z.,Zhao B.,Xiao J.,Automatic Generation of Large-scale Handwriting Fonts via StyleLearning.SIGGRAPH Asia 2016TB,2016)中提出的最优输入字符集(OptSet),包含775个汉字,能覆盖GB2312字库中出现的所有类型的笔画和部件。
在第二步中,对汉字图像进行方向矫正,分割出单个汉字图像,将汉字的位置调整至图像的中心,并保持长宽比缩放至320×320分辨率大小。
在第三步中,采用一致性点集漂移算法(CPD--Coherent Point Drift)(Myronenko,A.,Song,X.Point set registration:Coherent point drift.IEEETransactions on Pattern Analysis and Machine Intelligence.2010:32(12),2262–2275)自动提取汉字骨架,将该种字体给定汉字图像的骨架点与已经拆分好的参考字体对应汉字的骨架点进行非刚性点集注册,得到拆分好的每个笔画轨迹信息,即骨架线上的点坐标。或者人工标注训练数据中的汉字骨架。
在第四步中,基于上一步骤中得到的书写轨迹信息,通过一种非均匀采样算法,每个笔画轨迹采样20个点,确保笔画的端点、转折点和其他笔画的交叉点一定包括在采样点集合中。之后,采样的点连接成单像素的骨架线,并渲染为一定宽度的骨架图像,这里采用4个像素宽度。同时,该算法收集了书写风格不同72种字体,分别提取骨架,进行采样,计算平均骨架信息,作为骨架变形网络的参考字体风格。
通过每个笔画固定的采样点,可以构建参考风格和目标书写风格笔画轨迹上点的对应关系,本方法提出骨架流场(skeleton flow field,简称为SFF),SFF(i)表示参考风格书写轨迹Ir上的点
Figure BDA0001870816070000031
和目标书写轨迹It对应点
Figure BDA0001870816070000032
坐标差值的二维向量,表示为式1。
Figure BDA0001870816070000033
在第五步中,给定一个参考风格汉字的骨架图像,骨架变形网络的目的是预测每个像素点到目标书写风格骨架图像对应点的骨架流场,然后合成具有目标书写风格汉字的书写轨迹。本发明采用一个两阶段的卷积神经网络进行骨架流场的预测,第一阶段的网络结构如图2所示,包含压缩和扩张两个部分的网络。压缩部分的网络包括一系列步长为2的卷积层,下采样的倍数为64;扩张部分的网络将表征汉字体类别hf和该汉字所包含的笔画类别hs的向量与压缩的特征进行结合,通过一种多尺度预测的方式,从5×5的分辨率开始逐级预测。如图2所示,每一次将反卷积的结果和压缩部分对应尺寸卷积神经网络的输出和上一个尺度骨架流场上采样2x的结果进行结合,进行下一个尺度的预测。此外,每一个连接操作后接一个卷积层,使得流场预测结果更加平滑。
本方法定义了33种笔画类别,并将笔画类别信息作为一种先验知识加入到骨架变形网络中。在汉字图像中每个像素点所属的笔画类别可以看作是汉字的语义信息,把类似于(Wang,X.;Yu,K.;Dong,C.;and Change Loy,C.2018.Re-covering realistic texturein image super-resolution by deep spatial feature transform.In CVPR.)中提出的空间特征变换层(Spatial Feature Translation Layer)作用到在压缩网络部分每个卷积层之后,对特征进行变换。笔画的先验知识被定义为式2:
S=(S1,S2,S3,…,SK) (式2)
K表示笔画总的类别数,
Figure BDA0001870816070000041
表示Ir上的点i是否属于类别k。第j个空间变换层的输入是上一个卷积层的输出
Figure BDA0001870816070000042
和笔画类别先验S经过卷积层编码得到的结果,输出是变换参数αj和βj,作用到
Figure BDA0001870816070000043
得到式3:
Figure BDA0001870816070000044
第二阶段的网络结构与第一阶段类似,但不包含空间特征变化层(SpatialFeature Translation Layer),网络的输入是第一阶段的输出和参考骨架图像。骨架变形网络采用端到端的训练方式,损失函数定义为多尺度预测结果的加权平均,表示为式4:
Figure BDA0001870816070000045
其中,权重λj随着尺度增大;lossj表示预测的骨架流场及其目标值的平均欧式距离;j∈[0,6]。
在第六步中,通过风格渲染网络,将骨架图像渲染为特定书写风格的汉字图像,增加轮廓线上的细节,同时尽可能保证汉字结构的正确性。网络结构采用图像到图像翻译模型,包括生成网络G和判别器。
生成网络G包含两个阶段的生成器:第一阶段生成器G1和第二阶段生成器G2,如图3所示,输入的骨架图像通过一系列下采样层变为高层抽象表示,每个下采样层由一个卷积核大小为5×5、步长为2的卷积层、批规范化层和LeakyRelu组成。类似骨架变形网络,然后和字体类别向量hf和笔画类别向量hs结合,逐级上采样,每个上采样层包含卷积核大小为5×5、步长为2的反卷积层、批规范化层和Relu。此外,编码器中每一层的输出和对应的上采样层结合来减少在下采样中损失的信息。为了减少生成图像模糊和虚假边缘,将第一阶段生成的结果送入到第二阶段的生成器进行修正,先下采样至40×40,然后接残差网络,最后通过一系列上采样层得到最终生成的汉字图像。判别网络D同时对生成图像的真假和字体类别进行判断,采用参考文献中(Isola,P.;Zhu,J.-Y.;Zhou,T.;and Efros,A.A.2017.Image-to-image translation with conditional adversarial networks.InCVPR,5967–5976.)的判别器的设计。
风格渲染网络的损失函数包含对抗损失,一致性损失和像素空间损失。Ds(·)对汉字图像的真假进行判断,Dc(·)对汉字字体风格类别进行判断。对于判别器来说,希望生成的汉字图像被判断为假的可能性越大越好,而生成网络则希望它被判断为真的可能性越大越好,所以生成网络最小化
Figure BDA0001870816070000051
更新网络参数,同时判别器最大化
Figure BDA0001870816070000052
更新网络参数。
Figure BDA0001870816070000053
Figure BDA0001870816070000054
分别表示判别器对于生成字形真假和字体类别判断的损失,具体形式如式5和式6:
Figure BDA0001870816070000055
Figure BDA0001870816070000056
此外,为了尽可能保证生成汉字图像骨架结构正确性,本方法提出了一致性损失函数Lconst,衡量输入骨架图像和生成汉字图像在高层特征的相似性,表示为式7;其中,EncI表示第一阶段生成器G1的编码器。
Figure BDA0001870816070000057
同时,像素空间的损失通过计算生成汉字图像和目标图像的L1损失Lpixel来度量,G1和G2两个阶段同时监督,表示为式8;其中,M表示像素点损失权重,汉字上的点和背景像素点的权重比为5:1。
Figure BDA0001870816070000058
生成网络损失函数Lstyle被定义为式9:
Figure BDA0001870816070000059
其中,λad、λpix、λcon分别为三种损失函数的权重系数。
在第七步中,具体实施时,将用户书写的775个汉字与网络生成的5988个汉字打包,采用(Pan W.,Lian Z.,Tang Y.,Xiao J..Skeleton-Guided Vectorization ofChinese Calligraphy Images.MMSP 2014,paperID 19,2014)文献中的方法进行矢量化,得到具备该用户手写体风格的GB2312字库文件。
与现有技术相比,本发明的积极效果在于:
本发明涉及一种基于深度堆叠网络的结构信息指导的手写体中文字库自动生成方法,用户只需要书写极少量的汉字,系统即可学习其特有的风格特征,生成具备该用户书写风格的完整的个性化手写体字库文件,方便地在电脑、手机等电子移动设备上使用。
相比于基于计算机图形学的方法,本发明方法能够更好地捕捉字体风格,即使是与参考风格差异大的目标手写体风格,也能够生成风格相似的汉字图像,并且不需要人工设计各种笔画或部件合成规则;相比于基于深度学习的方法,该方法利用汉字领域知识,指导书写轨迹的合成,极大地保留了汉字的结构信息,对于复杂字形,也能够得到正确的合成结果,避免了深度学习结果中常见的模糊和虚假边缘等问题,可以生成高分辨率高质量的汉字字形图像。
该发明方法能同时保证生成字形的结构准确性和风格一致性,简单高效,成本低,质量高,能够满足普通人快速制作个性化手写体字库的实际应用需求。
附图说明
图1是本发明提供的手写体中文字库自动生成方法的流程框图。
图2是本发明提供的第五步骨架变形网络第一阶段的模型结构图。
图3是本发明提供的第六步风格渲染网络的模型结构图。
图4是本发明提供方法和汉字生成方法(pix2pix、DCFont、zi2zi、FontSL)的对比实验结果;
其中,方法pix2pix参见文献:Isola,P.;Zhu,J.-Y.;Zhou,T.;and Efros,A.A.2017.Image-to-image translation with conditional adversarial networks.InCVPR,5967–5976.
方法DCFont参见文献:Jiang,Y.;Lian,Z.;Tang,Y.;and Xiao,J.2017.Dcfont:anend-to-end deep chinese font generation system.In SIGGRAPH ASIA 2017TB,22.
方法Zi2zi参见文献:Tian,Y.2017.zi2zi:Master chinese calligraphy withcon-ditional adversarial networks.https://github.com/kaonashi-tyc/zi2zi.
方法FontSL参见文献:Lian,Z.;Zhao,B.;and Xiao,J.2016.Automatic genera-tion of large-scale handwriting fonts via style learning.In SIGGRAPH ASIA2016TB,12.
基于深度学习的方法(“pix2pix”,“DCFont”和“zi2zi”),生成结果质量不高,当放大字形细节时,模糊情况很严重;对于结构复杂的汉字,会出现不合理的笔画。基于计算机图形学的方法(“FontSL”)虽然能保证汉字结构的正确性,但是缺乏于书写者风格的一致性。本发明生成的结果不仅能保留汉字结构的正确性,同时能准确迁移书写者的风格细节,生成质量高。
图5是本发明实施例提供的五种不同手写体风格的中文字库的文本渲染效果图;
其中,(a)中的楷体字形是用户没有书写的汉字;在(b)-(f)的对应文字位置显示的是用采用本发明方法生成的汉字字形。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于深度堆叠网络的结构信息指导的手写体中文字库自动生成方法,用户只需要书写少量汉字,利用多级深度神经网络对书写风格建模,通过骨架合成和风格渲染两部分,生成汉字图像,得到具备用户书写风格的完整字库文件。
本发明方法的流程图和网络结构图如附图1、图2和图3所示,具体实施时,包括如下步骤:
1)用户在模板表格或者白纸上书写指定输入集合的775个汉字,扫描成图片或者拍照上传到系统中。
2)将包含775个汉字的图片切分为单个汉字图像,通过高斯滤波器去除噪声,将汉字放在320×320大小图像的中心位置。
3)利用前述的笔画自动提取算法或者人工标注得到每个汉字书写轨迹数据集。
4)对每个笔画非均匀采样20个关键点,保证端点、转折点和交叉点一定包含其中。参考风格和目标风格每个笔画的采样点连接成线,并膨胀为像素宽度为4的骨架图像,建立一一对应关系,计算骨架流场(skeleton flow field,简称为SFF),
Figure BDA0001870816070000071
Figure BDA0001870816070000072
表示参考风格书写轨迹Ir上的点
Figure BDA0001870816070000073
和目标书写轨迹It对应点
Figure BDA0001870816070000074
坐标差值的二维向量。
5)利用775个汉字的汉字骨架图像及其对应的参考风格的骨架图像,作为骨架变形网络的训练数据集,上一步计算得到骨架流场为网络的输出目标值。网络收敛后,将用户未书写汉字对应的参考风格的骨架作为网络的输入,即可得到预测的骨架流场,然后结合参考汉字的骨架,合成目标书写风格的汉字骨架图像。此时可以得到GB2312字库所有6763个汉字骨架图像。
6)将775个汉字骨架图像和其对应汉字图像作为风格渲染网络的训练数据集,网络输入是骨架图像,输出是渲染风格后的汉字图像。模型训练结束后,将用户未书写汉字通过上一步骤合成的骨架图像作为输入,得到渲染风格后的汉字图像。
此外,本发明选取了25种不同风格的字体预训练整个网络模型,当学习某个特定用户的书写风格时,只需要在预训练好的模型上微调即可。这种方式不仅能加快收敛速度,还能提高生成汉字的质量。
7)用户书写的775个汉字与该系统生成的5988个汉字结合到一起即可得到完整的GB2312的6763汉字的汉字图像,利用上述的方法进行矢量化,生成具备用户书写风格的TrueType格式的字库文件。
以上结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。可以理解的是,所描述的实例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (9)

1.一种手写体中文字库的自动生成方法,其特征是,基于深度堆叠网络和结构信息指导,通过书写轨迹合成阶段和字体风格渲染阶段,首先从用户书写的少量手写体汉字对书写风格进行学习,从而合成未书写汉字的书写轨迹;并渲染为目标的手写体风格;再生成具备该用户书写风格的完整的GB2312中文手写体字库文件;其中:
第一阶段进行书写轨迹合成,包括:将每个手写体汉字字符表示为一系列拆分好笔画的书写轨迹;构造一个基于卷积神经网络的多级模型作为骨架变形网络;通过骨架变形网络将书写轨迹从参考字体风格迁移到目标字体风格;进行书写轨迹合成具体包括如下步骤:
第一步,获取指定输入字符集合的汉字图像;
第二步,将汉字图像进行切分,获得多个单个汉字图像;并将单个汉字图像的大小归一化到设定尺寸;
第三步,利用汉字笔画自动提取方法和/或人工标注方法获得每个汉字的笔画书写轨迹;
第四步,基于非均匀采样算法,对于每个汉字每个笔画,采样相同数目的骨架点坐标,建立参考风格和目标风格书写轨迹线上点的对应关系,将单像素宽度的骨架图像合成为一定宽度的汉字骨架图像;
第五步,通过对骨架变形网络学习,得到从参考风格骨架到目标风格骨架的变换关系;
对于用户未书写的汉字,通过第五步得到的变换关系,合成未书写汉字的笔画轨迹,得到汉字骨架图像;
第二阶段进行字体风格渲染,包括:构建基于生成对抗网络的深度卷积神经网络模型作为风格渲染网络;通过风格渲染网络,将合成的骨架图像恢复汉字形状细节;进行字体风格渲染具体包括如下步骤:
第六步,根据第五步得到的汉字骨架图像,采用风格渲染网络,恢复笔画轮廓线上风格细节,自动生成用户未书写的其他所有汉字的字形图像;
风格渲染网络的损失函数包含对抗损失,一致性损失和像素空间损失;
Ds(·)对汉字图像的真假进行判断,Dc(·)对汉字字体风格类别进行判断;
Figure FDA0003971386230000011
Figure FDA0003971386230000012
分别表示为式5和式6:
Figure FDA0003971386230000013
Figure FDA0003971386230000021
其中,
Figure FDA0003971386230000022
Figure FDA0003971386230000023
分别表示判别器对于生成字形真假和字体类别判断的损失;生成网络最小化
Figure FDA0003971386230000024
更新网络参数,同时判别器最大化
Figure FDA0003971386230000025
更新网络参数;
利用一致性损失函数Lconst,衡量输入骨架图像和生成汉字图像在高层特征的相似性,表示为式7;
Figure FDA0003971386230000026
其中,EncI表示第一阶段生成器的编码器;
通过计算生成汉字图像和目标图像的L1损失Lpixel来度量像素空间的损失;G1和G2两个阶段同时监督,表示为式8:
Figure FDA0003971386230000027
其中,M表示像素点损失权重,汉字上的点和背景像素点的权重比为5:1;
生成器的损失函数Lstyle被定义为式9:
Figure FDA0003971386230000028
其中,λad、λpix、λcon分别为三种损失函数的权重系数;
第七步,将第二步中的用户书写的指定字符集合的汉字图像和第六步得到的汉字图像结合,得到GB2312字库汉字的图像集合。
2.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,对第七步得到的汉字的图像集合进行矢量化操作,生成具备用户书写风格的GB2312中文手写体的计算机字库文件。
3.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,第一步具体通过用户书写指定输入字符集合的汉字,并转换成汉字图片;或通过在手机或平板的应用程序上书写汉字;由此获取指定输入字符集合的汉字图片;所述指定输入字符集合包括能覆盖GB2312字库中出现的所有类型的笔画和部件的775个汉字。
4.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,第二步具体将单个汉字图像归一化为尺寸320×320。
5.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,第三步所述汉字笔画自动提取方法具体采用一致性点集漂移算法自动提取汉字骨架,将字体给定汉字图像的骨架点与已经拆分好的参考字体对应汉字的骨架点进行非刚性点集注册,得到拆分好的每个笔画轨迹信息,即为骨架线上的点坐标。
6.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,第四步所述非均匀采样算法,具体执行如下操作:
1)对得到的每个汉字的笔画书写轨迹采样多个点,使得笔画的端点、转折点和其他笔画的交叉点均包括在采样点集合中;
2)将采样的多个点连接成单像素的骨架线,并渲染为一定宽度的骨架图像;
对收集的不同书写风格的字体分别提取骨架,进行采样,计算平均骨架信息,作为骨架变形网络的参考字体风格;
所述第五步得到从参考风格骨架到目标风格骨架的变换关系,具体是:建立骨架变形网络的骨架流场SFF,通过每个笔画固定的采样点,构建参考风格和目标书写风格笔画轨迹上点的对应关系,采用骨架流场SFF(i)表示:
Figure FDA0003971386230000031
式1中,
Figure FDA0003971386230000032
表示参考风格书写轨迹Ir上的点
Figure FDA0003971386230000033
和目标书写轨迹It对应点
Figure FDA0003971386230000034
坐标差值的二维向量,记为SFF(i)
通过式1表示的对应关系,给定一个参考汉字的风格骨架图像,通过骨架变形网络预测每个像素点到目标书写风格骨架图像对应点的骨架流场,再合成得到具有目标书写风格汉字的书写轨迹。
7.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,书写轨迹合成阶段的骨架变形网络包括压缩部分的网络和扩张部分的网络;压缩部分的网络包括一系列步长为2的卷积层,下采样的倍数为64;扩张部分的网络将表征汉字体类别hf和汉字所包含的笔画类别hs的向量与压缩的特征进行结合,通过多尺度预测方式,从5×5的分辨率开始逐级预测;每一个连接操作后接一个卷积层,由此使得流场预测结果更加平滑;
骨架变形网络的损失函数定义为多尺度预测结果的加权平均,表示为式4:
Figure FDA0003971386230000035
其中,权重λj随着尺度增大;lossj表示预测的骨架流场及其目标值的平均欧式距离;j∈[0,6]。
8.如权利要求7所述的手写体中文字库的自动生成方法,其特征是,定义笔画类别,并将笔画类别信息作为先验知识加入到骨架变形网络中;定义笔画的先验知识为式2:
S=(S1,S2,S3,…,SK) (式2)
其中,K表示笔画总的类别数;
Figure FDA0003971386230000041
表示Ir上的点i是否属于类别k;
将每个像素点所属的笔画类别视为汉字的语义信息;将空间特征变换层作用到在压缩网络部分每个卷积层之后,对特征进行变换;表示为式3:
Figure FDA0003971386230000042
其中,
Figure FDA0003971386230000043
为第j个空间特征变换层的输出;
Figure FDA0003971386230000044
为上一个卷积层的输出;αj和βj为变换参数;
第j个空间特征变换层的输入是上一个卷积层的输出
Figure FDA0003971386230000045
和笔画类别先验S经过卷积层编码得到的结果,输出是变换参数αj和βj,作用到
Figure FDA0003971386230000046
得到第j个空间特征变换层的输出
Figure FDA0003971386230000047
9.如权利要求1所述的手写体中文字库的自动生成方法,其特征是,字体风格渲染阶段的风格渲染网络结构采用图像到图像翻译模型,包括两个阶段的生成器和判别器;判别器用于同时对生成图像的真假和字体类别进行判断;通过两个阶段的生成器得到最终生成的汉字图像;
风格渲染网络中,输入的骨架图像通过一系列下采样层变为高层抽象表示,每个下采样层由一个卷积核大小为5×5、步长为2的卷积层、批规范化层和LeakyRelu组成;和字体类别向量hf和笔画类别向量hs结合,逐级上采样;每个上采样层包含卷积核大小为5×5、步长为2的反卷积层、批规范化层和Relu;编码器中每一层的输出和对应的上采样层进行结合,以减少在下采样中损失的信息;
将生成器第一阶段生成的结果送入到第二阶段的生成器进行修正,先下采样至40×40,然后接残差网络,最后通过一系列上采样层得到最终生成的汉字图像。
CN201811376244.4A 2018-11-19 2018-11-19 基于深度堆叠网络的结构信息指导的中文字库生成方法 Active CN109635883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811376244.4A CN109635883B (zh) 2018-11-19 2018-11-19 基于深度堆叠网络的结构信息指导的中文字库生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811376244.4A CN109635883B (zh) 2018-11-19 2018-11-19 基于深度堆叠网络的结构信息指导的中文字库生成方法

Publications (2)

Publication Number Publication Date
CN109635883A CN109635883A (zh) 2019-04-16
CN109635883B true CN109635883B (zh) 2023-04-18

Family

ID=66068362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811376244.4A Active CN109635883B (zh) 2018-11-19 2018-11-19 基于深度堆叠网络的结构信息指导的中文字库生成方法

Country Status (1)

Country Link
CN (1) CN109635883B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135530B (zh) 2019-05-16 2021-08-13 京东方科技集团股份有限公司 转换图像中汉字字体的方法及系统、计算机设备及介质
CN110210356A (zh) * 2019-05-24 2019-09-06 厦门美柚信息科技有限公司 一种图片鉴别方法、装置及系统
CN110209457A (zh) * 2019-06-04 2019-09-06 深圳云里物里科技股份有限公司 应用于电子价签的字体渲染方法、系统及电子设备和介质
CN110427989B (zh) * 2019-07-18 2021-07-09 北京大学 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN110443864B (zh) * 2019-07-24 2021-03-02 北京大学 一种基于单阶段少量样本学习的艺术字体自动生成方法
CN110458918B (zh) * 2019-08-16 2023-05-09 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN112669407A (zh) * 2019-10-16 2021-04-16 北京方正手迹数字技术有限公司 字库生成方法、装置、电子设备及存储介质
CN110866395B (zh) * 2019-10-30 2023-05-05 语联网(武汉)信息技术有限公司 基于译员编辑行为的词向量生成方法及装置
CN110852326B (zh) * 2019-11-06 2022-11-04 贵州工程应用技术学院 一种手写体版面分析和多风格古籍背景融合方法
CN110969681B (zh) * 2019-11-29 2023-08-29 山东浪潮科学研究院有限公司 一种基于gan网络的手写体书法文字生成方法
CN111027451A (zh) * 2019-12-05 2020-04-17 上海眼控科技股份有限公司 手写汉字图像恢复书写轨迹的方法及设备
CN111062290B (zh) * 2019-12-10 2023-04-07 西北大学 基于生成对抗网络中国书法风格转换模型构建方法及装置
CN111027550B (zh) * 2019-12-17 2023-09-08 新方正控股发展有限责任公司 字库视觉重心调整的方法和装置
CN111242840A (zh) * 2020-01-15 2020-06-05 上海眼控科技股份有限公司 手写体字符生成方法、装置、计算机设备和存储介质
CN111402540B (zh) 2020-02-25 2021-08-24 王勇强 吸气式感烟火灾探测装置、方法及设备
CN111461019B (zh) * 2020-04-01 2023-04-07 黑龙江文茁教育科技有限公司 一种汉字书写质量的评价方法、系统及设备
CN111507064A (zh) * 2020-04-15 2020-08-07 伍曙光 一种基于计算机的字库设计方法
CN111539873B (zh) * 2020-05-06 2023-10-20 中国科学院自动化研究所 个人风格书法字字库生成方法及系统
CN112163400B (zh) * 2020-06-29 2024-07-05 维沃移动通信有限公司 信息处理方法及装置
CN112132916B (zh) * 2020-08-18 2023-11-14 浙江大学 一种利用生成对抗网络的篆刻作品定制化设计生成装置
CN112435196B (zh) * 2020-12-02 2022-11-29 中国人民解放军战略支援部队信息工程大学 基于深度学习的文字修复方法及系统
CN112765935B (zh) * 2021-01-18 2024-04-26 上海锐线创意设计有限公司 一种文字外形个性化处理方法及系统
CN112732943B (zh) * 2021-01-20 2023-09-22 北京大学 一种基于强化学习的中文字库自动生成方法及系统
CN113326725B (zh) * 2021-02-18 2024-03-12 陕西师范大学 基于骨架引导传输网络的汉字字体自动生成方法
CN112861520A (zh) * 2021-03-08 2021-05-28 成都字嗅科技有限公司 一种基于计算机的汉字结构优化方法及系统
CN112862025A (zh) * 2021-03-08 2021-05-28 成都字嗅科技有限公司 一种基于计算机的汉字笔画填充方法、系统、终端及介质
CN114550179B (zh) * 2022-01-11 2024-08-09 陕西师范大学 对手写汉字黑板板书进行指导的方法、系统及设备
CN117422796B (zh) * 2023-12-19 2024-04-16 深圳须弥云图空间科技有限公司 文字标志生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136769A (zh) * 2011-12-02 2013-06-05 北京三星通信技术研究有限公司 用户书写风格字体生成的方法和装置
CN106384094A (zh) * 2016-09-18 2017-02-08 北京大学 一种基于书写风格建模的中文字库自动生成方法
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN108304357A (zh) * 2018-01-31 2018-07-20 北京大学 一种基于字体流形的中文字库自动生成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159666C (zh) * 2002-03-29 2004-07-28 上海汉峰信息科技有限公司 基于笔划中心线技术的曲线字形的还原显示方法
US7983478B2 (en) * 2007-08-10 2011-07-19 Microsoft Corporation Hidden markov model based handwriting/calligraphy generation
US9165243B2 (en) * 2012-02-15 2015-10-20 Microsoft Technology Licensing, Llc Tensor deep stacked neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136769A (zh) * 2011-12-02 2013-06-05 北京三星通信技术研究有限公司 用户书写风格字体生成的方法和装置
CN106384094A (zh) * 2016-09-18 2017-02-08 北京大学 一种基于书写风格建模的中文字库自动生成方法
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN108304357A (zh) * 2018-01-31 2018-07-20 北京大学 一种基于字体流形的中文字库自动生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《DCFont:an end-to-end deep chinese font generation system;Yue Jiang等;《SIGGRAPH Asia 2017 Technical Briefs》;20171231;全文 *
Multi-Content GAN for Few-Shot Font Style Transfer》;Samaneh Azadi等;《http://arxiv.org/abs/1712.00516》;20171201;全文 *
基于深度学习手写字符的特征抽取方法研究;邹煜等;《软件》;20170115(第01期);全文 *
基于部件拼接的高质量中文字库自动生成系统;刘成东等;《北京大学学报(自然科学版)》;20170504(第01期);全文 *

Also Published As

Publication number Publication date
CN109635883A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635883B (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
Jiang et al. Scfont: Structure-guided chinese font generation via deep stacked networks
CN112070658B (zh) 一种基于深度学习的汉字字体风格迁移方法
JP2667954B2 (ja) 静的及び動的パラメータを使用する自動手書き文字認識装置及び方法
CN111767979A (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN106384094A (zh) 一种基于书写风格建模的中文字库自动生成方法
CN111199531A (zh) 基于泊松图像融合及图像风格化的交互式数据扩展方法
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN112819686A (zh) 基于人工智能的图像风格处理方法、装置及电子设备
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和系统
CN112364838B (zh) 一种利用合成的联机文本图像改进手写ocr性能的方法
CN108898092A (zh) 基于全卷积神经网络的多光谱遥感影像路网提取方法
Veeravasarapu et al. Adversarially tuned scene generation
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN113807340A (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
Liu et al. FontTransformer: Few-shot high-resolution Chinese glyph image synthesis via stacked transformers
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN117095172A (zh) 一种基于内外部蒸馏的持续语义分割方法
WO2023284670A1 (zh) 图形码提取模型构建方法、识别方法、装置、设备和介质
CN116246064A (zh) 一种多尺度空间特征增强方法及装置
CN112732943B (zh) 一种基于强化学习的中文字库自动生成方法及系统
CN114898464A (zh) 一种基于机器视觉的轻量化精准手指语智能算法识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant