CN109165376B - 基于少量样本的风格字符生成方法 - Google Patents
基于少量样本的风格字符生成方法 Download PDFInfo
- Publication number
- CN109165376B CN109165376B CN201810683657.0A CN201810683657A CN109165376B CN 109165376 B CN109165376 B CN 109165376B CN 201810683657 A CN201810683657 A CN 201810683657A CN 109165376 B CN109165376 B CN 109165376B
- Authority
- CN
- China
- Prior art keywords
- style
- character
- characters
- training
- enc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于少量样本的风格字符生成方法,以若干种风格字符(手写体风格或者印刷体风格)组成风格参考字符数据集,以及一种标准字体的字符作为字符内容原型数据源,使用基于深度生成对抗网络的图像翻译模型,训练出一个字符风格迁移的字符生成模型;该模型能够以任意给定的少量(甚至一个)带有某种风格(书写体/印刷体)的字符作为风格参考样板,生成带有同种书写/印刷风格的任意字符;生成字符的内容则由输入的内容原型(标准字体)来决定。
Description
技术领域
本发明涉及一种风格字符生成方法,尤其涉及一种基于少量样本风格的手写或印刷体字符生成方法。
背景技术
根据Z.H.Lian等人在SIGGRAPH ASIA 2016发表的论文《Automatic generationof large-scale handwriting fonts via style learning》中描述的模型,用户可根据其提供的接口输入自己手写的部分字符,从而得到一些模型输出的风格类似的字符。例如,用户提供266个字符输入到模型中可以得到27533个风格类似的字符。但是,该模型的训练需要提供大量的标注数据,并且需要用户较为规范的输入才能得到预期的结果,在较少标注数据的情况下的效果不好。模型的重点在于分离出字体的各个笔画,再输入到神经网络中进行学习,从而根据笔画的风格来学习到整个字体的风格。但其构造仅仅是简单的多层卷积网络,对于稍微复杂的输入例如较潦草的字符,则效果一般。并且模型的泛化能力不足。
zi2zi是一种基于风格转换通用模型pix2pix(Isola, Phillip and Zhu, Jun-Yan and Zhou, Tinghui and Efros, Alexei A,《Image-to-Image Translation withConditional Adversarial Networks》)的字符风格学习模型,它通过16层深度卷积/反卷积网络来实现从标准字体到有风格字体到风格迁移任务。每一种手写体的风格信息由一个1*128维的随机向量来表示,表示多个手写体风格的随机向量矩阵我们称之为categoryembedding。
将表示风格信息的随机向量输入16层的深度卷积/反卷积网络中,使标准字体向用户手写风格靠近。当训练样本足够多时,能够生成较好的字体。然而模型参数数量巨大,难以训练,并且需要很多训练样本才能够完成任务。同时,因为训练时需要固定所有涉及到的手写字体,该模型无法处理未知手写字体的生成任务。
基于以上模型,Z.H.Lian等在SIGGRAPH ASIA 2017发表的论文《DCFont: an end-to-end deep chinese font generation system》则提出了原本模型的改进方法:引入条件生成式对抗网络(cGAN),将学习笔画轮廓替换为在标准字体(例如楷体)的基础上加入手写风格的特征。手写特征提取则由生成器(encoder-decoder)和VGG-16深度卷积网络完成。然而模型的问题仍然是无法处理很潦草的输入字符风格问题,并且需要较多的训练样本。
发明内容
本发明的目的是提供一种基于少量样本的风格字符生成方法,该手写字符生成方法实现了根据同一风格的少量(甚至一个)字符生成相应风格的字体, 包括手写体和印刷体。
为达到上述目的,本发明采用的技术方案是:一种基于少量样本风格字符生成方法,其特征在于:以若干种(多余50种)手写体字符为手写体风格迁移目标,或者若干种常见印刷体(多余50种)字符为印刷体风格迁移目标, 以及一种标准字体的字符作为风格迁移源,使用基于深度生成对抗网络的图像翻译模型,训练出一个字符风格迁移的字符生成模型;
所述字符生成模型由内容原型编码器Content Prototype Encoder,Encp,风格参考编码器Style Reference Encoder,Encr和解码器Decoder,Dec所组成,因为两个编码器从结构上来说是并列的关系,因此,网络的总层数是12层;
所述内容原型编码器Content Prototype Encoder,Encp输入数据为一个带有标准风格的字符(x 0 j ),表示成长宽为64*64,值域在[0,255]之间的灰度图片,输出为经过若干个残差单元(Residual Blocks)或者直接连接的各级卷积特征;该内容原型编码器由连续的卷积(Conv)间隔步幅值为2的卷积运算,用于提取所输入的标准字符(x 0 j )从低级(像素级)到高级(隐空间)的各级特征,每级特征较之其上一级特征,特征长宽减半,其所得到的标准字符的最高级特征,长宽均为1;
所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种风格(风格用i来表示)N个不同字符({x i b1 ,x i b2 ,…,x i bN }),同样表示成长宽为64*64,值域在[0,255]之间的灰度图片;输出为N份各级卷积特征进行平均运算后,再经过若干个残差单元(Residual Blocks)或者直接连接的各级卷积特征;
该风格参考编码器基本结构与Encp相似,但为了处理一次性输入的多个(N个)带有某种书写风格字符(假设为第i个风格, {x i b1 ,x i b2 ,…,x i bN })的平均特征,对应这些N个字符的N个卷积特征首先需要对N进行平均运算,从而得出这N个字符({x i b1 ,x i b2 ,…,x i bN })的1个各级平均卷积特征,此后再放入若干个残差单元(Residual Blocks)或者直接连接后送入Dec;
所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进行特征提取,并将提取过后的信息串联后输入解码器网络Decoder, Dec;Dec解码器网络对从内容原型编码器Encp和风格参考编码器Encr的输入来的各级卷积特征进行串联(ConCat)后进行恢复及重建,输出带有某一种的风格的生成字符(G(x0 j, xi b1, xi b2,…, xi bN)),亦同样表示成长宽为64*64,值域在[0,255]之间的灰度图片;
该生成字符的内容来源于输入到Encp的标准字符(x0 j),风格来源于输入到Encr的N个带有第i个风格的字符(({xi b1, xi b2,…, xi bN});
该解码器由连续的卷积间隔步幅值为2的反卷积(DeConv)运算所组成,即后一级特征的长宽是前一级特征的两倍,最终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;
包括以下步骤:
步骤一、训练开始之前,需要对字符生成模型的参数进行随机初始化, 从而给定训练的开始状态;
步骤二、我们使用随机优化(Stochastic Optimization)的训练策略来对该字符生成模型进行训练, 训练目标即为最小化训练误差LG;
步骤三、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即称为训练完成的字符生成模型;
步骤四、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,{xi b1,xi b2,…,xi bN}),并将此N个字符依次输入到训练完成的字符生成模型的风格参考编码器(Encr),得出N份各级卷积特征,对应N个不同的同风格字符;
步骤五,对由Encr计算得出的, 对应于N个输入的带有同一种书写风格的字符的N份各级卷积特征进行平均计算, 得出N份各级卷积特征的平均各级卷积体征(一份);
步骤六、对步骤五所得出的各级卷积特征进行相应的残差单元操作或直接连接操作,保存下各级特征的计算结果,作为此后输入解码器的风格参考特征;
步骤七、向内容原型编码器(Encp)输入欲生成字符对应的标准风格的字符(黑体,x0 j),计算出各级卷积特征后,进行相应的残差单元或者直接连接操作;
步骤八、将两个编码器所得到的各级卷积特征,分别串联到解码器的各级输出特征之上,从而生成欲产生的带有特定风格的任意字符,G(x0 j,xi b1,xi b2,…,xi bN)。
上述技术方案中进一步改进的技术方案如下:
1. 上述方案中,所述步骤二具体包括以下步骤:
步骤1、我们从训练数据集中随机选取一批训练数据(一批数据的大小一般设置为16个数据)其中一个数据由一对字符组成,包括一个标准字符(x0 j)和与之相同的带有某一个特定风格的字符的真实样本(xi j);
步骤2、此后,根据所选取的带有某一个特定风格的字符真实样本(xi j),随机从同一个训练数据集中选取另外N个带有同样风格的不同的字符({xi b1,xi b2,…,xi bN});
步骤3、将x0 j输入Encp,{xi b1,xi b2,…,xi bN}输入Encr,从而获取两个编码器各级卷积特征;
步骤4、将上一步获得的两个编码器的各级卷积特征根据图示连接关系送入解码器,从而生成希望生成的带有某一个特定书写风格的字符样本(G(x0 j,xi b1,xi b2,…,xi bN));
步骤5、将上一步所生成的字符样本计算以下两个训练误差:
(1)生成样本G(x0 j,xi b1,xi b2,…,xi bN)与数据库中真实样本(xi j)的1-范数误差,即:
(2)除了以上像素层面上的第几特征的1-范数误差,本专利在训练过程中也考虑到了高级特征误差,我们使用一个预先训练好的VGG-16(Simonyan,Karen,and AndrewZisserman. "Very deep convolutional networks for large-scale imagerecognition." arXiv preprint arXiv:1409.1556 (2014))网络(该VGG-16网络的训练目标为区分不同的字体风格),将G(x0 j,xi b1,xi b2,…,xi bN)与xi j分别输入到该网络中,即可得到各自的逐级卷积特征,记为Φ(G(x0 j,xi b1,xi b2,…,xi bN))和Φ(xi j),则此处的高级特征误差可由以下公式来计算:
在本专利中,我们选取Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷积特征来计算高级特征误差;
(3)训练中引入“生成对抗网络”的训练方法(Gulrajani,I.,Ahmed,F.,Arjovsky,M.,Dumoulin,V.,Courville,A.C.: Improved training of wasserstein gans pp.5769–5779 (2017)),即在训练所要得到的字符生成模型之外(G),同时训练另外一个以卷积神经网络为基础的一个判别式模型(D),该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据. 如果输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零. 当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数据已经具有很高的质量,已经无法与真实数据相区分了;
生成对抗网络的训练方法所对应的误差称为对抗损失. 字符生成模型称为生成器G,G的对抗损失为:
对于判别器D,对抗损失为:
;
步骤6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首先根据最小化来优化网络G(字符生成模型),此后,根据最小化/>来优化网络D,每个迭代过程使用Adams(Kingma,Diederik P.,and Jimmy Ba. "Adam: Amethod for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014).)优化方法交替地对G(字符生成模型)和 D 网络进行参数更新。
2. 上述方案中,所述训练中所使用的手写体数据库为CASIA-HWDB1.1-OFFLINE和CASIA-HWDB2.1-OFFLINE(Offline Version, Liu, C.L., Yin, F., Wang, D.H., Wang,Q.F.: Casia online and offline chinese hand-writing databases pp. 37–41(2011))两个数据集. 两个数据集中, 挑选若干书写者(大于50种)所写字符中所有收录在GB2312一级字符集中的所有简体字符数据作为训练数据, 用以训练该字符生成模型。印刷体数据库为若干种挑选出来的常用中文印刷体(多余50种), 其中所有收录于GB2312字符集中的所有简体汉字作为训练数据。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明基于少量样本风格的风格字符生成方法,其实现了根据一种风格的少量字符(甚至一个字符)生成相应风格的任意字符。该方法能够以若干个甚至一个带有风格的字符作为风格参考样板,生成带有同种书写/印刷风格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定。
附图说明
附图1为本发明基于少量样本风格的手写字符生成方法原理示意图;
附图2为附图1中标识出内容原型编码器的原理示意图;
附图3为附图1中标识出风格参考编码器的原理示意图;
附图4为附图1中标识出解码器的原理示意图;
附图5为由输入的一个带有某种印刷风格的字符所生成的其它带有同种印刷风格的汉字;
附图6为附图5的对应真实的印刷体汉字. 数据库中无法找到的对应的带有相应风格的印刷体汉字则由标准字体汉字来代替作为占位使用;
附图7为由输入的一个带有某种手写风格的字符所生成的其它带有同种手写风格的汉字;
附图8为附图7的对应真实的手写体汉字. 数据库中无法找到的对应的带有相应风格的手写体汉字则由标准字体汉字来代替作为占位使用;
附图9为由输入的四个带有某种印刷风格的字符所生成的其它带有同种印刷风格的汉字;
附图10为附图9的对应真实的印刷体汉字. 数据库中无法找到的对应的带有相应风格的印刷体汉字则由标准字体汉字来代替作为占位使用;
附图11为由输入的四个带有某种手写风格的字符所生成的其它带有同种手写风格的汉字;
附图12为附图11的对应真实的手写体汉字. 数据库中无法找到的对应的带有相应风格的手写体汉字则由标准字体汉字来代替作为占位使用;
附图13为由输入的八个带有某种印刷风格的字符所生成的其它带有同种印刷风格的汉字;
附图14为附图13的对应真实的印刷体汉字. 数据库中无法找到的对应的带有相应风格的印刷体汉字则由标准字体汉字来代替作为占位使用;
附图15为由输入的八个带有某种手写风格的字符所生成的其它带有同种手写风格的汉字;
附图16为附图15的对应真实的手写体汉字. 数据库中无法找到的对应的带有相应风格的手写体汉字则由标准字体汉字来代替作为占位使用;
附图17为由输入的16个带有某种印刷风格的字符所生成的其它带有同种印刷风格的汉字;
附图18为附图17的对应真实的印刷体汉字. 数据库中无法找到的对应的带有相应风格的印刷体汉字则由标准字体汉字来代替作为占位使用;
附图19为由输入的16个带有某种手写风格的字符所生成的其它带有同种手写风格的汉字;
附图20为附图19的对应真实的手写体汉字. 数据库中无法找到的对应的带有相应风格的手写体汉字则由标准字体汉字来代替作为占位使用;
附图21为由输入的32个带有某种印刷风格的字符所生成的其它带有同种印刷风格的汉字;
附图22为附图21的对应真实的印刷体汉字. 数据库中无法找到的对应的带有相应风格的印刷体汉字则由标准字体汉字来代替作为占位使用;
附图23为由输入的32个带有某种手写风格的字符所生成的其它带有同种手写风格的汉字;
附图24为附图23的对应真实的手写体汉字. 数据库中无法找到的对应的带有相应风格的手写体汉字则由标准字体汉字来代替作为占位使用。
具体实施方式
下面结合实施例对本发明作进一步描述:
实施例:一种基于少量样本风格的字符生成方法,其特征在于:以若干种(多余50种)手写体字符为手写体风格迁移目标,或者若干种常见印刷体(多余50种)字符为印刷体风格迁移目标, 以及一种标准字体的字符作为风格迁移源,使用基于深度生成对抗网络的图像翻译模型,训练出一个字符风格迁移的字符生成模型;
所述字符生成模型由内容原型编码器Content Prototype Encoder,Encp,风格参考编码器Style Reference Encoder,Encr和解码器Decoder,Dec所组成,因为两个编码器从结构上来说是并列的关系,因此, 网络的总层数是12层;
所述内容原型编码器Content Prototype Encoder,Encp输入数据为一个带有标准风格的字符(x 0 j ),表示成长宽为64*64,值域在[0,255]之间的灰度图片,输出为经过若干个残差单元(Residual Blocks)或者直接连接的各级卷积特征;该内容原型编码器由连续的卷积(Conv)间隔步幅值为2的卷积运算,用于提取所输入的标准字符(x 0 j )从低级(像素级)到高级(隐空间)的各级特征,每级特征较之其上一级特征,特征长宽减半,其所得到的标准字符的最高级特征,长宽均为1;
所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种风格(风格用i来表示)N个不同字符({x i b1 ,x i b2 ,…,x i bN }),同样表示成长宽为64*64,值域在[0,255]之间的灰度图片;输出为N 份各级卷积特征进行平均运算后,再经过若干个残差单元(Residual Blocks)或者直接连接的各级卷积特征;
该风格参考编码器基本结构与Encp相似,但为了处理一次性输入的多个(N个)带有某种书写风格字符(假设为第i个风格, {x i b1 ,x i b2 ,…,x i bN })的平均特征,对应这些N个字符的N个卷积特征首先需要对N进行平均运算,从而得出这N个字符({x i b1 ,x i b2 ,…,x i bN })的1个各级平均卷积特征,此后再放入残差单元(Residual Blocks)或者直接连接后送入Dec;
所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进行特征提取,并将提取过后的信息串联后输入解码器网络Decoder, Dec;Dec解码器网络对从内容原型编码器Encp和风格参考编码器Encr的输入来的各级卷积特征进行串联(ConCat)后进行恢复及重建,输出带有某一种的风格的生成字符(G(x0 j, xi b1, xi b2,…, xi bN)),亦同样表示成长宽为64*64,值域在[0,255]之间的灰度图片;
该生成字符的内容来源于输入到Encp的标准字符(x0 j),风格来源于输入到Encr的N个带有第i个风格的字符(({xi b1, xi b2,…, xi bN});
该解码器由连续的卷积间隔步幅值为2的反卷积(DeConv)运算所组成,即后一级特征的长宽是前一级特征的两倍,最终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;
包括以下步骤:
步骤一、训练开始之前,需要对字符生成模型的参数进行随机初始化, 从而给定训练的开始状态;
步骤二、我们使用随机优化(Stochastic Optimization)的训练策略来对该字符生成模型进行训练, 训练目标即为最小化训练误差;
步骤三、当的值不再继续下降后,停止训练,此时训练所得的模型参数即称为训练完成的字符生成模型;
步骤四、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,{xi b1,xi b2,…,xi bN}),并将此N 个字符依次输入到训练完成的字符生成模型的风格参考编码器(Encr),得出N份各级卷积特征,对应N个不同的同风格字符;
步骤五,对由Encr计算得出的, 对应于N个输入的带有同一种书写风格的字符的N份各级卷积特征进行平均计算, 得出N份各级卷积特征的平均各级卷积体征(一份);
步骤六、对步骤五所得出的各级卷积特征进行相应的残差单元操作或直接连接操作,并保存各级特征的计算结果,作为此后输入解码器的风格参考特征;
步骤七、向内容原型编码器(Encp)输入欲生成字符对应的标准风格的字符(x0 j),计算出各级卷积特征后,进行相应的残差单元或者直接连接操作;
步骤八、将两个编码器所得到的各级卷积特征,分别串联到解码器的各级输出特征之上,从而生成欲产生的带有特定风格的任意字符,G(x0 j,xi b1,xi b2,…,xi bN)。
上述技术方案中进一步改进的技术方案如下:
1. 上述方案中,所述步骤二具体包括以下步骤:
步骤1、我们从训练数据集中随机选取一批训练数据(一批数据的大小一般设置为16个数据),其中一个数据由一对字符组成,包括一个标准字符(x0 j)和与之相同的带有某一个特定风格的字符的真实样本(xi j);
步骤2、此后,根据所选取的带有某一个特定风格的字符真实样本(xi j),随机从同一个训练数据集中选取另外N个带有同样风格的不同的字符({xi b1,xi b2,…,xi bN});
步骤3、将x0 j输入Encp,{xi b1,xi b2,…,xi bN}输入Encr,从而获取两个编码器各级卷积特征;
步骤4、将上一步获得的两个编码器的各级卷积特征根据图示连接关系送入解码器,从而生成希望生成的带有某一个特定书写风格的字符样本(G(x0 j,xi b1,xi b2,…,xi bN));
步骤5、将上一步所生成的字符样本计算以下两个训练误差:
(1)生成样本G(x0 j,xi b1,xi b2,…,xi bN)与数据库中真实样本(xi j)的1-范数误差,即:
(2)除了以上像素层面上的第几特征的1-范数误差,本专利在训练过程中也考虑到了高级特征误差,我们使用一个预先训练好的VGG-16(Simonyan,Karen,and AndrewZisserman. "Very deep convolutional networks for large-scale imagerecognition." arXiv preprint arXiv:1409.1556 (2014))网络(该VGG-16网络的训练目标为区分不同的字体风格),将G(x0 j,xi b1,xi b2,…,xi bN)与xi j分别输入到该网络中,即可得到各自的逐级卷积特征,记为Φ(G(x0 j,xi b1,xi b2,…,xi bN))和Φ(xi j),则此处的高级特征误差可由以下公式来计算:
;
在本专利中,我们选取Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷积特征来计算高级特征误差;
(3)训练中引入“生成对抗网络”的训练方法(Gulrajani,I.,Ahmed,F.,Arjovsky,M.,Dumoulin,V.,Courville,A.C.: Improved training of wasserstein gans pp.5769–5779 (2017)),即在训练所要得到的字符生成模型之外(G),同时训练另外一个以卷积神经网络为基础的一个判别式模型(D),该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据. 如果输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零. 当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数据已经具有很高的质量,已经无法与真实数据相区分了;
生成对抗网络的训练方法所对应的误差称为对抗损失. 字符生成模型称为生成器G,G的对抗损失为:
对于判别器D,对抗损失为:
;
步骤6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首先根据最小化来优化网络G(字符生成模型),此后,根据最小化/>来优化网络D,每个迭代过程使用Adams(Kingma,Diederik P.,and Jimmy Ba. "Adam: Amethod for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014).)优化方法交替地对G(字符生成模型)和 D 网络进行参数更新。
所述训练中所使用的手写体数据库为CASIA-HWDB1.1-OFFLINE和CASIA-HWDB2.1-OFFLINE(Offline Version, Liu, C.L., Yin, F., Wang, D.H., Wang, Q.F.: Casiaonline and offline chinese hand-writing databases pp. 37–41 (2011))两个数据集. 两个数据集中, 挑选若干书写者(大于50种)所写字符中所有收录在GB2312一级字符集中的所有简体字符数据作为训练数据, 用以训练该字符生成模型。印刷体数据库为若干种挑选出来的常用中文印刷体(多余50种), 其中所有收录于GB2312字符集中的所有简体汉字作为训练数据。
为了克服一般深度网络(12层)在训练过程中所面临的梯度消失的问题,将两个编码器的各级输出特征连接到对应层的解码器的特征之上. 连接的形式有直接连接(short-cut)和经过若干残差单元(Resudial Blocks)后再连接两种。
内容原型编码器(Encp)第四层及其之下各级特征通过直接连接的方式与对应的解码器的特征相串联(ConCat);第四层之上特征通过若干个残差单元后,也与对应的解码器的各级特征相串联;风格参考编码器(Encr)的输入数据为N个同风格的不同字符,因此,该编码器的各级输出的各级特征均有N份,每一份对应一个同风格的不同字符. 因此,再将该编码器输出特征与标准字体编码器的输出特征整合以及输入到解码器之前,需要对该编码器第四层及其之下特征进行平均计算(Avg),从而削去因为不同的字符所带来的特征差异,只保留与某一种手写体风格有关的特征. 将平均后的第四层特征经过若干个残差单元后与解码器的对应层特征相串联,第四层以上的平均特征直接串联到解码器的对应层特征之上。
本发明基于少量样本风格的风格字符生成方法,其实现了根据一种风格的少量字符(甚至一个字符)生成相应风格的任意字符。该方法能够以若干个甚至一个带有风格的字符作为风格参考样板,生成带有同种书写/印刷风格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定;
附图5~附图24给出一些根据较少样本(样本数为1, 4, 8, 16, 32)的带有某种风格(印刷风格或者手写风格)的标定样本, 使用本发明中所提出的字符生成模型所产生的带有同种风格的其它字符。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种基于少量样本的风格字符生成方法,其特征在于:以若干种风格字符组成风格参考字符数据集,以及标准风格的字符作为字符内容原型数据源,使用基于深度生成对抗网络的图像翻译模型,训练出一个字符风格迁移的字符生成模型;该模型能够以少量个或者一个标准风格的字符作为风格参考样本,生成带有同种书写或印刷风格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定;
所述字符生成模型由内容原型编码器Content Prototype Encoder,Encp,风格参考编码器Style Reference Encoder,Encr和解码器Decoder,Dec所组成,因为两个编码器从结构上来说是并列的关系,因此,深度模型网络的总层数是12层;
所述内容原型编码器Content Prototype Encoder,Encp,输入数据为一个标准风格的字符x 0 j ,表示成长宽为64*64,值域在[0,255]之间的灰度图片,输出为经过若干个残差单元或者直接连接的各级卷积特征;该内容原型编码器由连续的间隔步幅值为2的卷积运算所组成,用于提取所输入的标准风格的字符x 0 j 从低级到高级的各级特征,每级特征较之其上一级特征,特征长宽减半,其所得到的标准风格的字符的最高级特征,长宽均为1;
所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种风格N个不同字符{x i b1 , x i b2 ,…, x i bN },风格用i来表示,同样表示成长宽为64*64,值域在[0,255]之间的灰度图片;输出为 N 份各级卷积特征进行平均运算后,再经过若干个残差单元Residual Blocks 或者直接连接,输出各级卷积特征;
该风格参考编码器基本结构与Encp相似,但为了处理一次性输入的N个带有某种书写风格字符,假设为第i个风格, {x i b1 , x i b2 ,…, x i bN }的平均特征,对应这些N个字符的N个卷积特征;首先需要对N份各级卷积特征进行平均运算,从而得出这N个字符{x i b1 , x i b2 ,…,x i bN }的1个各级平均卷积特征,此后再放入若干个残差单元或者直接连接后送入解码器Dec;
所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进行特征提取,并将提取过后的信息串联后输入解码器网络Decoder, Dec;Dec解码器网络对从内容原型编码器Encp和风格参考编码器Encr的输入来的各级卷积特征进行串联后进行恢复及重建,输出带有某一种的风格的生成字符G(x0 j, xi b1, xi b2,…, xi bN),亦表示成长宽为64*64,值域在[0,255]之间的灰度图片;
该生成字符的内容来源于输入到Encp的标准风格的字符x0 j,风格来源于输入到Encr的N个带有第i个风格的字符{xi b1, xi b2,…, xi bN};
该解码器由连续的卷积间隔步幅值为2的反卷积运算所组成,即后一级特征的长宽是前一级特征的两倍,最终生成与输入的标准风格的字符长宽一致的具有特定风格的字符;
包括以下步骤:
步骤一、训练开始之前,需要对字符生成模型的参数进行随机初始化,从而给定训练的开始状态;
步骤二、我们使用随机优化的训练策略来对该字符生成模型进行训练,训练目标即为最小化字符生成模型的训练误差LG;
步骤三、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即称为训练完成的字符生成模型;
步骤四、获取某个书写风格的若干个字符,假设为N个, N<=32,{xi b1,xi b2,…,xi bN},并将N个字符依次输入到训练完成的字符生成模型的风格参考编码器Encr,得出N份各级卷积特征,对应N个不同的同风格字符;
步骤五,对由Encr计算得出的, 对应于N个输入的带有同一种书写风格的字符的N份各级卷积特征进行平均计算, 得出N份各级卷积特征的一份平均各级卷积体征;
步骤六、对步骤五所得出的各级卷积特征进行相应的残差单元操作或直接连接操作,保存各级卷积特征的计算结果,作为此后输入解码器的风格参考特征;
步骤七、向内容原型编码器Encp输入欲生成字符对应的标准风格的字符x0 j,计算出各级卷积特征后,进行相应的残差单元或者直接连接操作;
步骤八、将两个编码器所得到的各级卷积特征,分别串联到解码器的各级输出特征之上,从而生成欲产生的带有特定风格的任意字符,G(x0 j,xi b1,xi b2,…,xi bN)。
2. 根据权利要求1所述的基于少量样本的风格字符生成方法,其特征在于:所述训练中所使用的手写体数据库中国科学院手写汉字脱机数据库为CASIA-HWDB1.1-OFFLINE和CASIA-HWDB2.1-OFFLINE两个数据集,两个数据集中,挑选若干书写者所写字符中所有收录在GB2312一级字符集中的所有简体字符数据作为训练数据, 用以训练该字符生成模型;
印刷体数据库为若干种挑选出来的常用中文印刷体,其中所有收录于GB2312字符集中的所有简体汉字作为训练数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810683657.0A CN109165376B (zh) | 2018-06-28 | 2018-06-28 | 基于少量样本的风格字符生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810683657.0A CN109165376B (zh) | 2018-06-28 | 2018-06-28 | 基于少量样本的风格字符生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109165376A CN109165376A (zh) | 2019-01-08 |
CN109165376B true CN109165376B (zh) | 2023-07-18 |
Family
ID=64897314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810683657.0A Active CN109165376B (zh) | 2018-06-28 | 2018-06-28 | 基于少量样本的风格字符生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165376B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033054B (zh) * | 2019-03-14 | 2021-05-25 | 上海交通大学 | 基于协同笔画优化的个性化手写体迁移方法和系统 |
CN111753859B (zh) * | 2019-03-26 | 2024-03-26 | 杭州海康威视数字技术股份有限公司 | 样本生成方法、装置及设备 |
CN110427989B (zh) * | 2019-07-18 | 2021-07-09 | 北京大学 | 汉字骨架自动合成方法及大规模中文字库自动生成方法 |
CN110570481A (zh) * | 2019-07-31 | 2019-12-13 | 中国地质大学(武汉) | 基于风格迁移的书法字库自动修复方法及系统 |
CN111753493B (zh) * | 2019-09-29 | 2024-08-02 | 西交利物浦大学 | 基于少量样本的内含多种归一化处理的风格字符生成方法 |
CN110706317A (zh) * | 2019-10-11 | 2020-01-17 | 北京一起教育信息咨询有限责任公司 | 印刷手写混合的数学公式数据生成方法及装置 |
CN110852326B (zh) * | 2019-11-06 | 2022-11-04 | 贵州工程应用技术学院 | 一种手写体版面分析和多风格古籍背景融合方法 |
CN111046915B (zh) * | 2019-11-20 | 2022-04-15 | 武汉理工大学 | 一种风格字符生成的方法 |
CN111161266B (zh) * | 2019-12-06 | 2022-03-25 | 西安理工大学 | 一种基于矢量量化的变分自编码机的多风格字体生成方法 |
CN110852042A (zh) * | 2019-12-13 | 2020-02-28 | 北京华宇信息技术有限公司 | 字符类型转换方法和装置 |
CN111242840A (zh) * | 2020-01-15 | 2020-06-05 | 上海眼控科技股份有限公司 | 手写体字符生成方法、装置、计算机设备和存储介质 |
CN112381910A (zh) * | 2020-12-28 | 2021-02-19 | 北京亿信华辰软件有限责任公司武汉分公司 | 一种打印体字符手写风格化方法 |
TWI845837B (zh) * | 2021-04-21 | 2024-06-21 | 國立中央大學 | 手寫中文字辨識方法及手寫中文字辨識裝置 |
CN113052143A (zh) * | 2021-04-26 | 2021-06-29 | 中国建设银行股份有限公司 | 手写数字生成方法和装置 |
CN113140017B (zh) * | 2021-04-30 | 2023-09-15 | 北京百度网讯科技有限公司 | 训练对抗网络模型的方法、建立字库的方法、装置和设备 |
CN113792851B (zh) * | 2021-09-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 字体生成模型训练方法、字库建立方法、装置及设备 |
CN113792526B (zh) * | 2021-09-09 | 2024-02-09 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 |
CN113807430B (zh) * | 2021-09-15 | 2023-08-08 | 网易(杭州)网络有限公司 | 模型训练的方法、装置、计算机设备及存储介质 |
CN114973279B (zh) * | 2022-06-17 | 2023-02-17 | 北京百度网讯科技有限公司 | 手写文本图像生成模型的训练方法、装置和存储介质 |
CN118351553B (zh) * | 2024-06-17 | 2024-08-20 | 江西师范大学 | 一种基于笔顺动态学习的可解释性少样本字体生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2005200200A1 (en) * | 2001-08-06 | 2005-02-03 | Zamtec Limited | A method of identifying printing cartridge characteristics with capacitive sensors |
JP2014206566A (ja) * | 2013-04-10 | 2014-10-30 | 株式会社ハートス | 画像処理発光制御システム、発光表示用画像処理プログラム、および画像発光表示方法 |
CN106156794A (zh) * | 2016-07-01 | 2016-11-23 | 北京旷视科技有限公司 | 基于文字风格识别的文字识别方法及装置 |
CN106952224A (zh) * | 2017-03-30 | 2017-07-14 | 电子科技大学 | 一种基于卷积神经网络的图像风格转移方法 |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN107767328A (zh) * | 2017-10-13 | 2018-03-06 | 上海交通大学 | 基于少量样本生成的任意风格和内容的迁移方法和系统 |
-
2018
- 2018-06-28 CN CN201810683657.0A patent/CN109165376B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2005200200A1 (en) * | 2001-08-06 | 2005-02-03 | Zamtec Limited | A method of identifying printing cartridge characteristics with capacitive sensors |
JP2014206566A (ja) * | 2013-04-10 | 2014-10-30 | 株式会社ハートス | 画像処理発光制御システム、発光表示用画像処理プログラム、および画像発光表示方法 |
CN106156794A (zh) * | 2016-07-01 | 2016-11-23 | 北京旷视科技有限公司 | 基于文字风格识别的文字识别方法及装置 |
CN106952224A (zh) * | 2017-03-30 | 2017-07-14 | 电子科技大学 | 一种基于卷积神经网络的图像风格转移方法 |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN107767328A (zh) * | 2017-10-13 | 2018-03-06 | 上海交通大学 | 基于少量样本生成的任意风格和内容的迁移方法和系统 |
Non-Patent Citations (2)
Title |
---|
"Motion Style Retargeting to Characters With Different Morphologies";M. Abdul‐Massih 等;《Computer Graphics Forum》;20170915;第36卷(第6期);第121-131页 * |
"利用字形风格约束的字符识别研究";刘长松 等;《自动化学报》;20071115(第11期);第56-61页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109165376A (zh) | 2019-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165376B (zh) | 基于少量样本的风格字符生成方法 | |
CN109190722B (zh) | 基于满文字符图片的字体风格迁移变换方法 | |
CN111753493B (zh) | 基于少量样本的内含多种归一化处理的风格字符生成方法 | |
CN107577651B (zh) | 基于对抗网络的汉字字体迁移系统 | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
US20190180154A1 (en) | Text recognition using artificial intelligence | |
CN109033095B (zh) | 基于注意力机制的目标变换方法 | |
CN112686134B (zh) | 手写识别方法、装置、电子设备和存储介质 | |
CN112307714A (zh) | 一种基于双阶段深度网络的文字风格迁移方法 | |
Wang et al. | Repetitive reprediction deep decipher for semi-supervised learning | |
CN110114776A (zh) | 使用全卷积神经网络的字符识别的系统和方法 | |
CN111652202A (zh) | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统 | |
CN114266945B (zh) | 一种目标检测模型的训练方法、目标检测方法及相关装置 | |
CN112766079A (zh) | 一种基于内容风格分离的无监督图像到图像翻译方法 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN116051410A (zh) | 基于图像增强的羊毛羊绒纤维表面形态结构图识别方法 | |
Moon et al. | Neural universal discrete denoiser | |
CN113408418A (zh) | 一种书法字体与文字内容同步识别方法及系统 | |
CN114742014B (zh) | 基于关联注意力的少样本文字风格迁移方法 | |
CN114187598B (zh) | 手写数字识别方法、设备及计算机可读存储介质 | |
CN111506832B (zh) | 一种基于块矩阵补全的异构对象补全方法 | |
CN111695689A (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
Sakr et al. | Convolution Neural Networks for Arabic Font Recognition | |
CN115862015A (zh) | 文字识别系统的训练方法及装置、文字识别方法及装置 | |
CN111402121A (zh) | 图像风格的转换方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |