CN111046915A - 一种风格字符生成的方法 - Google Patents

一种风格字符生成的方法 Download PDF

Info

Publication number
CN111046915A
CN111046915A CN201911138722.2A CN201911138722A CN111046915A CN 111046915 A CN111046915 A CN 111046915A CN 201911138722 A CN201911138722 A CN 201911138722A CN 111046915 A CN111046915 A CN 111046915A
Authority
CN
China
Prior art keywords
style
character
characters
target character
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911138722.2A
Other languages
English (en)
Other versions
CN111046915B (zh
Inventor
熊盛武
路雄博
朱安娜
张齐洋
曹丹凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shuixiang Electronic Technology Co ltd, Wuhan University of Technology WUT filed Critical Wuhan Shuixiang Electronic Technology Co ltd
Priority to CN201911138722.2A priority Critical patent/CN111046915B/zh
Publication of CN111046915A publication Critical patent/CN111046915A/zh
Application granted granted Critical
Publication of CN111046915B publication Critical patent/CN111046915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出了一种“基于深度特征相似性融合生成对抗网络”生成风格字符的方法。具体来讲,分别使用风格提取器和内容提取器对相关字符特征进行提取,计算深度特征相似性,并将此深度特征相似性运用到特征融合过程,得到目标字符的深度特征,最终由该融合后的深度特征生成目标风格字符。该方法能够根据任意个来自同一风格的参考字符,和一个标准集中的字符,生成一新的字符,其中该生成字符的风格与参考字符一致,其内容与给定的标准集中的字符一致。所述风格字符,包括但不限于书法字体中字符,印刷体字符,广告牌字符,自然场景文字字符等。所述方法可以处理多种语言的文字。

Description

一种风格字符生成的方法
技术领域
本发明涉及深度学习与图像生成,具体涉及一种基于给定风格字符生成具有与其风格一致的目标字符的生成方法。
背景技术
文字作为一种人为设计的重要符号,包含了各种风格,其中有字体、笔画、阴影、轮廓、颜色、纹理和复杂的效果等等。设计和绘制某种语言的基本文字需要花费设计师大量的时间和精力,在真实场景中,我们只能收集由艺术家为特定用途而设计的一部分文字的子集,比如电影标题、路边的一个标志、商家的某些广告等。而如果可以根据某一些文字的子集去生成需要的目标文字,就可以大大的缩短设计师设计大量字符所需的时间,也可以让普通人变成文字设计大师。
近年来,很多人在文字生成领域做出了不错的工作。但不论是zi2zi,《DCFont:anend-to-end deep chinese font generation system》,还是CN109165376A等工作都只能处理灰度图像级别的文字生成,其本身处理的对象风格仅限于字体的变化等(印刷体风格和手写风格),而不包含复杂的纹理。S.Azad等人提出来的Multi-content Gan(Azadi S,Fisher M,Kim V,et al.Multi-Content GAN for Few-Shot Font Style Transfer[C])将网络分为GlyphNet和OrnaNet两个部分,这两个网络结构都是条件对抗网络,其中GlyphNet从大量数据中学习生成26个大写英文字符的样式,OrnaNet针对特定风格的字符对模型进行微调。其堆栈式的输入,只适合像英语这样只有26个字母的语言,而不适用于汉字等字符较多的预研。此外,目前的文字生成时,需要固定给定参考字符的个数,且一般一种方法只针对一种特定语言,这在一定程度上限制了文字生成的应用场景。
发明内容
本发明的目的是为了解决上述背景技术中存在的不足。因此,提出了一种“基于深度特征相似性融合生成对抗网络”生成风格字符的方法。
为了实现上述目的,本发明所采用的技术方案为:
一种风格字符生成的方法,以若干种风格字符组成的参考字符数据集,以及任意挑选的一组风格字符的全集作为标准集,使用基于深度特征相似性融合生成对抗网络生成风格字符的方法;该方法能够根据任意个来自同一风格的参考字符,和一个标准集中的字符,生成一新的字符,其中生成字符的风格与参考字符一致,其内容与给定的标准集中的字符一致;
所述基于深度特征相似性生成对抗网络由判别器D和生成器G两部分组成;其中生成器G部分由内容提取器Ec,风格特征提取器Es,风格融合器Mf和逆向生成网络Dr四个部分组成;
所述判别器D,输入数据为来自真实的目标文字TC或生成的目标文字GC,输出为样本来自真实分布的概率,若样本为TC则输出为1,若样本为GC则输出为0;判别器的网络结构由三个卷积块组成,每个卷积块包括卷积层、批归一化、激活函数和下采样,其中网络的最后一层输出为Softmax概率;
所述内容提取器Ec,输入数据为来自标准集中的目标字符的内容CT,输出为指定CT的深层内容特征fc,该提取器的网络结构由三个卷积块和六个ResNet块Block组成,每个卷积块包括卷积层、批归一化、激活函数和下采样;
所述风格特征提取器Es,输入数据为给定风格的参考字符RC,来自标准集中的目标字符的内容CT,以及来自标准集中的给定风格的参考字符对应的内容字符CR,输出给相应输入字符的深层风格特征fs;该提取器的网络结构与内容提取器的网络结构一致,也是由三个卷积块和六个ResNet块组成,每个卷积块包括卷积层、批归一化、激活函数和下采样;
所述风格融合器Mf由三个部分组成,分别为目标字符与给定参考风格特征相似性矩阵计算模块,目标字符风格信息生成模块,以及目标文字深度特征融合模块;风格融合器的输入为目标字符对应标准字符CT的内容特征fc,目标字符对应标准字符CT的风格特征fs_c,参考字符RCi的风格特征fs_rci以及参考字符RCi对应的标准字符CRi的风格特征fs_cri,输出为目标字符的深度特征ft;其中目标字符与给定字符风格特征相似性矩阵计算模块的输入为目标字符对应标准字符CT的风格特征fs_c,参考字符RCi对应的标准字符CRi的风格特征fs_cri输入为fs_c与fs_cri的相似性矩阵SM;目标字符风格信息生成模块的输入为相似性矩阵SM以及参考字符RCi的风格特征fs_rci,输出为目标字符的风格特征fs;目标文字深度特征融合模块的输入为目标字符的风格特征fs以及目标字符对应标准字符CT的内容特征fc,输出为目标字符的深度特征ft
所述逆向生成网络的Dr的输入为目标字符的深度特征ft,输出为目标字符GC,其中GC具有CT的内容,以及与参考字符RC相一致的风格,即无论内容还是风格都与TC一致;逆向生成网络由逆卷积层和批归一化组成,除最后一层采用Sigmoid激活外,其余层仅采用上采样;
上述描述中CT,CR,RC,TC均为H*W*C的RGB图像,其中H表示图片的高,W表示图片的宽,C为图像的通道数;i表示给定参考字符的索引值;
该方法包括如下步骤:
步骤一,将数据集划分为训练集,验证集和测试集,随机挑选一组风格的字符作为标准集,并对基于深度特征相似性生成对抗网络进行随机初始化;
步骤二,在训练集中进行任务的采样,每一组风格中的参考字符采用随机采样的方法,将任务描述为一个四元组(RCi,CRi,CT,TC),其中i=1,2…K,K表示给定风格字符的个数;其中RCi表示第i个给定的参考字符,CRi表示第i个给定参考字符对应的标准内容字符,CT表示目标字符对应的标准内容字符,TC表示要生成的目标字符本身;
步骤三:将RCi,CRi,CT输入风格特征提取器Es中,分别得到对应字符的深度风格特征fs_rci,fs_cri和fs_c,同时将CT输入内容提取器Ec中,得到对应文字的深度内容特征fc
步骤四:将fs_cri和fs_c输入风格融合器Mf的目标字符与给定参考风格特征相似性矩阵计算模块计算两者之间的深度特征相似性矩阵SM;
步骤五:将fs_rci与SM输入风格融合器Mf的目标字符风格信息生成模块,得到目标字符的风格特征fs
步骤六:将fs与fc输入征融合器Mf的目标文字深度特征融合模块,得到目标字符的融合深度特征ft
步骤七:将目标文字的融合深度特征ft输入逆向生成网络的Dr,得到最终的生成文字GC;
步骤八:通过GC和TC,计算其损失,并通过反向传播,采用随机梯度下降法更新网络G和D的参数;
步骤九:通过验证集中采样到的任务(RCi,CRi,CT,TC)验证网络,若达到停止条件,则停止训练,否则返回步骤二;
步骤十:在应用时,GC=G(RCi,CRi,CT)。
进一步的,步骤二中在训练集中随机挑选的任务,其模拟的是真实的生成任务,对于风格的选择,每一个epoch要进行k次不放回的均匀分布抽样,其中k是数据集里有的风格个数,即在一个epoch的训练中,应保证每一组风格的字符都被选中,且只选中一次,在下一个epoch的任务选择中,每一组风格的字符都被选中,且只选中一次。
进一步的,所述步骤三中风格特征提取器Es和内容提取器Ec的具体特征如下:
第一层卷积核大小为7,第二层和第三层卷积核大小均为3,第1,2,3层的卷积核的通道数分别为64,192,576;ResNet的块的通道数都为576。
进一步的,所述步骤四中深度特征相似性矩阵SM中元素
Figure BDA0002280260700000051
的计算方法如下:
Figure BDA0002280260700000052
Figure BDA0002280260700000053
Figure BDA0002280260700000054
其中,a是权重因子,i,j分别代表矩阵的行和列,K表示给定字符的个数,i也代表第i个给定字符,j代表深度特征的第j个通道;这里计算使用的f是将第j个通道得到的H*W的矩形深度特征拉伸而成的向量;最终
Figure BDA0002280260700000055
表示第i个给定字符的风格特征与目标字符的风格特征在第j个通道的相似度。
进一步的,所述步骤五中目标字符风格信息生成模块的计算方法如下:
Figure BDA0002280260700000056
其中,k为给定参考字符的个数,
Figure BDA0002280260700000061
为SM矩阵的第i行,⊙是利用广播机制的逐元素乘,fs_rci是将第i个参考字符的风格特征由H*W*C的张量在每一个通道上拉伸变为一个(H*W)*C的矩阵。
进一步的,所述步骤六中目标字符的融合深度特征ft是通过fs与fc级联实现。
进一步的,所述步骤七中逆向生成网络Dr的卷积核大小为3*3,步长设置为2。
进一步的,所述步骤八中的损失,具体计算如下:
L=LLSGAN(G,D)+LLG(G)
Figure BDA0002280260700000062
LLG(G)=λ1L1(G)+λ2LMSE(G)=λ1||G(x)-y||12(G(x)-y)2
其中LLSGAN(G,D)是最小二乘生成对抗网络损失,LLG(G)是生成损失,x表示三元组(RCi,CRi,CT),y表示目标字符TC,Pdata为样本的真实分布,E是数学期望,G表示生成器,D表示判别器,λ1,λ2是权重因子,表示最小二乘生成对抗网络损失和生成损失在最终损失中所占的比重,L1是1范数,Lmse是均方误差。
进一步的,所述步骤九中验证网络的停止条件为:
设置阈值loss_min,当平均验证损失loss_val不大于此值时,停止训练;
或当平均验证损失loss_val不再变化时,停止验证;
其中loss_val的计算方式与损失的计算方法一致,取值为全部N组验证任务的平均。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
(1)不仅可以用来生成灰度文字图像,还能够生成RGB的风格文字图像,其中风格包括但不限于字体、笔画、阴影、轮廓、颜色、纹理和复杂的效果等。
(2)可以生成多种语言的文字。
(3)给定参考字符的数目可以不固定,且与输入顺序无关,这大大拓宽了此方法的应用。
(4)生成的文字的效果无论是定性的评价还是定量的评价都表现的之前的方法更好。
附图说明
图1为本发明的实施例流程图;
图2为本发明生成器G的网络结构示意图;
图3为本发明方法与其他方法在英文字母上的对比图;
图4为本发明方法在汉语上的部分测试结果。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
本发明提供的一种风格字符生成的方法,即一种“基于深度特征相似性融合生成对抗网络”生成风格字符的方法,该方法以若干种风格字符组成的参考字符数据集,以及任意挑选的一组风格字符的全集作为标准集,使用本专利提出的“基于深度特征相似性融合生成对抗网络”生成风格字符的方法;该方法能够根据任意个来自同一风格的参考字符,和一个标准集中的字符,生成一新的字符,其中该生成字符的风格与参考字符一致,其内容与给定的标准集中的字符一致。所述风格字符,包括但不限于书法字体中字符,印刷体字符,广告牌字符,自然场景文字字符等。所述方法可以处理多种语言的文字。
所述“基于深度特征相似性生成对抗网络”的模型由判别器D和生成器G两部分组成。其中生成器G部分由内容提取器(Content Feature Encoder,Ec),风格特征提取器(Style Feature Encoder,Es),风格融合器(Feature Mixer,Mf)和逆向生成网络(ReverseDecoder,Dr)四个部分组成。
所述判别器D,输入数据为来自真实的目标文字(Target Character,TC)或生成的目标文字(Generated Character,GC),输出为样本来自真实分布的概率,若样本为TC则输出为1,若样本为GC则输出为0。判别器的网络结构由三个卷积块组成,每个卷积块包括卷积层(Convolutional Layer)、批归一化(Batch Normalization)、激活函数(ReLU)和下采样(Down-Sampling),其中网络的最后一层输出为Softmax概率。
所述内容提取器Ec,输入数据为来自标准集中的目标字符的内容(Content Imageof target Character,CT),输出为指定CT的深层内容特征(the feature of content,fc),该提取器的网络结构由三个卷积块和六个ResNet块(Block)组成,每个卷积块包括卷积层、批归一化、激活函数和下采样。
所述风格特征提取器Es,输入数据为给定风格的参考字符(ReferenceCharacter,RC),来自标准集中的目标字符的内容CT,以及来自标准集中的给定风格的参考字符对应的内容字符(Content image of referenced character,CR),输出给相应输入字符的深层风格特征(the feature of style,fs)。该提取器的网络结构与内容提取器的网络结构一致,也是由三个卷积块和六个ResNet块组成,每个卷积块包括卷积层、批归一化、激活函数和下采样。
所述风格融合器Mf由三个部分组成,分别为目标字符与给定参考风格特征相似性矩阵计算模块,目标字符风格信息生成模块,以及目标文字深度特征融合模块。风格融合器的输入为目标字符对应标准字符CT的内容特征fc,目标字符对应标准字符CT的风格特征fs_c,参考字符RCi的风格特征fs_rci以及参考字符RCi对应的标准字符CRi的风格特征fs_cri,输出为目标字符的深度特征ft。其中目标字符与给定字符风格特征相似性矩阵计算模块的输入为目标字符对应标准字符CT的风格特征fs_c,参考字符RCi对应的标准字符CRi的风格特征fs_cri输入为fs_c与fs_cri的相似性矩阵SM;目标字符风格信息生成模块的输入为相似性矩阵SM以及参考字符RCi的风格特征fs_rci,输出为目标字符的风格特征fs;目标文字深度特征融合模块的输入为目标字符的风格特征fs以及目标字符对应标准字符CT的内容特征fc,输出为目标字符的深度特征ft
所述逆向生成网络的Dr的输入为目标字符的深度特征ft,输出为目标字符GC,其中GC具有CT的内容,以及与参考字符RC相一致的风格,即无论内容还是风格都与TC一致。逆向生成网络由逆卷积层,(Deconvolutional Layer),批归一化组成。除最后一层采用Sigmoid激活外,其余层仅采用上采样。
上述描述中CT,CR,RC,TC均为H*W*3的RGB图像,其中H表示图片的高,W表示图片的宽;i表示给定参考字符的索引值。
该方法包括如下步骤:步骤1,将数据集划分为训练集,验证集和测试集,随机挑选一组风格的字符作为标准集,并对模型进行随机初始化。步骤2,在训练集中进行任务的采样,每一组风格中的参考字符采用随机采样的方法。将任务描述为一个四元组(RCi,CRi,CT,TC),其中i=1,2…K,K表示给定风格字符的个数,一般不超过6;四元组中个元素的定义与上面描述的一致,其中RCi表示第i个给定的参考字符,CRi表示第i个给定参考字符对应的标准内容字符,CT表示目标字符对应的标准内容字符,TC表示要生成的目标字符本身。步骤3:将RCi,CRi,CT输入风格特征提取器Es中,分别得到对应字符的深度风格特征fs_rci,fs_cri和fs_c。同时将CT输入内容提取器Ec中,得到对应文字的深度内容特征fc。步骤4:将fs_cri和fs_c输入风格融合器Mf的目标字符与给定参考风格特征相似性矩阵计算模块计算两者之间的深度特征相似性矩阵SM。步骤5:将fs_rci与SM输入风格融合器Mf的目标字符风格信息生成模块,得到目标字符的风格特征fs。步骤6:将fs与fc输入风格融合器Mf的目标文字深度特征融合模块,得到目标字符的融合深度特征ft。步骤7:将目标文字的融合深度特征ft输入逆向生成网络的Dr,得到最终的生成文字GC。步骤8:通过GC和TC,计算其损失,并通过反向传播,采用随机梯度下降法更新网络G和D的参数。步骤9:通过验证集中采样到的任务(RCi,CRi,CT,TC)验证网络,若达到停止条件,则停止训练,否则返回步骤2。步骤10:在应用时,GC=G(RCi,CRi,CT)
较佳地,所述步骤1中随机挑选的标准集为训练集,验证集和测试集共用。
较佳地,所述步骤2中在训练集中随机挑选的任务,其模拟的是真实的生成任务,对于风格的选择,每一个epoch要进行k次不放回的均匀分布抽样,其中k是数据集里有的风格个数。即在一个epoch的训练中,应保证每一组风格的字符都被选中,且只选中一次。在下一个epoch的任务选择中,每一组风格的字符都被选中,且只选中一次。但其中有两点不同:
第一点,不同epoch中,同一组风格的字符其给定字符和目标字符,可以一样也可以不一样。
第二点,不同epoch中,不同风格的选中顺序一般不同。
较佳地,所述步骤3中风格特征提取器Es和内容提取器Ec的具体特征如下:
第一层卷积核大小为7,其后两层为3,第1,2,3层的卷积核的通道数(channel)分别为64,192,576。
其后各层的ResNet的块的通道数都为576。
较佳地,所述步骤4中深度特征相似性矩阵SM中元素
Figure BDA0002280260700000111
的计算方法如下:
Figure BDA0002280260700000112
Figure BDA0002280260700000113
Figure BDA0002280260700000114
其中,a是权重因子,i,j分别代表矩阵的行和列,K表示给定字符的个数。
i也代表第i个给定字符,j代表深度特征的第j个通道。这里计算使用的f是将第j个通道得到的H*W的矩形深度特征拉伸而成的向量。最终
Figure BDA0002280260700000115
表示第i个给定字符的风格特征与目标字符的风格特征在第j个通道的相似度。
较佳地,所述步骤5中目标字符风格信息生成计算方法如下:
Figure BDA0002280260700000116
其中,k为给定参考字符的个数,
Figure BDA0002280260700000117
为SM矩阵的第i行,⊙是利用广播机制的逐元素乘,fs_rci是将第i个参考字符的风格特征由H*W*C的张量在每一个通道上拉伸变为一个(H*W)*C的矩阵。
较佳地,所述步骤6中目标字符的融合深度特征ft是通过fs与fc级联(concat)实现。
较佳地,所述步骤七中逆向生成网络Dr的卷积核大小为3*3,步长设置为2。在训练过程中,生成器G采用了50%的剪枝技术,在测试阶段没有进行剪枝。
较佳地,所述步骤8中的损失,具体计算如下:
L=LLSGAN(G,D)+LLG(G)
Figure BDA0002280260700000118
LLG(G)=λlLl(G)+λ2LMSE(G)=λ1||G(x)-y||12(G(x)-y)2
其中LLSGAN(G,D)是最小二乘生成对抗网络损失,LLG(G)是生成损失,x表示三元组(RCi,CRi,CT),y表示目标字符TC,Pdata为样本的真实分布,E是数学期望,G表示生成器,D表示判别器,λ1,λ2是权重因子,表示最小二乘生成对抗网络损失和生成损失在最终损失中所占的比重,L1是1范数,Lmse是均方误差。
较佳地,所述步骤9中验证网络的停止条件为:设置阈值loss_min,当平均验证损失loss_val不大于此值时,停止训练;或当平均验证损失loss_val不再变化时,停止验证。其中loss_val的计算方式与步骤8中损失的计算方法一致,取值为全部N组验证任务的平均。
较佳地,所述步骤10中,在具体使用时,没有目标文字的ground truth:TC。
本发明提供的实施例如下:
如图1所示,一种风格字符生成的方法即一种“基于深度特征相似性融合生成对抗网络”生成风格字符的方法的流程图,该方法的生成器结构图如图2所示,该方法包括如下步骤:
步骤一,将数据集划分为训练集,验证集和测试集,随机挑选一组风格的字符作为标准集,并对模型进行随机初始化。
步骤二,在训练集中进行任务的采样,其中风格采用随机采样的方法,每一组风格中的参考字符采用随机采样的方法。将任务描述为一个四元组(RCi,CRi,CT,TC),其中i=1,2…K,K表示给定风格字符的个数,一般不超过6;四元组中个元素的定义与上面描述的一致,其中RCi表示第i个给定的参考字符,CRi表示第i个给定参考字符对应的标准内容字符,CT表示目标字符对应的标准内容字符,TC表示要生成的目标字符本身。如图2所示,假设根据方正舒体的“W”“O”“R”“D”生成与其风格一致的“A”。则此时RC1 RC2 RC3 RC4分别为方正舒体的“W”“O”“R”“D”,又假定随机挑选的标准字符集为黑体的。则此时CR1 CR2CR3 CR4分别为黑体的“W”“O”“R”“D”,CT为黑体的“A”,TC为方正舒体的“A”。
步骤三:将RCi,CRi,CT输入风格特征提取器Es中,分别得到对应字符的深度风格特征fs_rci,fs_cri和fs_c。同时将CT输入内容提取器Ec中,得到对应文字的深度内容特征fc
步骤四:将fs_cri和fs_c输入风格融合器Mf的目标字符与给定参考风格特征相似性矩阵计算模块计算两者之间的深度特征相似性矩阵SM。
步骤五:将fs_rci与SM输入风格融合器Mf的目标字符风格信息生成模块,得到目标字符的风格特征fs
步骤六:将fs与fc输入风格融合器Mf的目标文字深度特征融合模块,得到目标字符的融合深度特征ft
步骤七:将目标文字的融合深度特征ft输入逆向生成网络的Dr,得到最终的生成文字GC。
步骤八:通过GC和TC,计算其损失,并通过反向传播,采用随机梯度下降法更新网络G和D的参数。
步骤九:通过验证集中采样到的任务(RCi,CRi,CT,TC)验证网络,若达到停止条件,则停止训练,否则返回步骤二。
步骤十:在应用时,GC=G(RCi,CRi,CT)。具体地,图3为英文字母的生成,图4为汉字的生成。图3显示了用不同方法生成的6组英文字母,其中每一组生成中,第一行为目标字符,其中用矩形框起来的是给定的风格字符,如第一组的“B”“D”“K”“Q”“U”“V”“W”,第二组的“J”“L”“S”“V”;第二行,第三行是其他方法的结果,最后一行是本方案提出方法的生成结果。图4显示了7组汉字的生成结果,其中每两行是一组,每一组的第一行是目标字符(ground truth),同样用矩形框起来的是给定的参考字符,每组中的下一行为本方法的生成结果。经过以上对比可知,本发明方法具有如下优势:(1)可以进行不同种类语言文字的生成,既可以生成英文字母还可以生成汉字。(2)不仅可以生成灰度图像,还可以生成RGB图像。(3)输入的给定字符的个数可变,例如图3第一组中给定了7个字符,第二组给定了4个字符。(4)生成的结果较其他方法较好,如图3中的对比实验。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (9)

1.一种风格字符生成的方法,其特征在于:以若干种风格字符组成的参考字符数据集,以及任意挑选的一组风格字符的全集作为标准集,使用基于深度特征相似性融合生成对抗网络生成风格字符的方法;该方法能够根据任意个来自同一风格的参考字符,和一个标准集中的字符,生成一新的字符,其中生成字符的风格与参考字符一致,其内容与给定的标准集中的字符一致;
所述基于深度特征相似性生成对抗网络由判别器D和生成器G两部分组成;其中生成器G部分由内容提取器Ec,风格特征提取器Es,风格融合器Mf和逆向生成网络Dr四个部分组成;
所述判别器D,输入数据为来自真实的目标文字TC或生成的目标文字GC,输出为样本来自真实分布的概率,若样本为TC则输出为1,若样本为GC则输出为0;判别器的网络结构由三个卷积块组成,每个卷积块包括卷积层、批归一化、激活函数和下采样,其中网络的最后一层输出为Softmax概率;
所述内容提取器Ec,输入数据为来自标准集中的目标字符的内容CT,输出为指定CT的深层内容特征fc,该提取器的网络结构由三个卷积块和六个ResNet块Block组成,每个卷积块包括卷积层、批归一化、激活函数和下采样;
所述风格特征提取器Es,输入数据为给定风格的参考字符RC,来自标准集中的目标字符的内容CT,以及来自标准集中的给定风格的参考字符对应的内容字符CR,输出给相应输入字符的深层风格特征fs;该提取器的网络结构与内容提取器的网络结构一致,也是由三个卷积块和六个ResNet块组成,每个卷积块包括卷积层、批归一化、激活函数和下采样;
所述风格融合器Mf由三个部分组成,分别为目标字符与给定参考风格特征相似性矩阵计算模块,目标字符风格信息生成模块,以及目标文字深度特征融合模块;风格融合器的输入为目标字符对应标准字符CT的内容特征fc,目标字符对应标准字符CT的风格特征fs_c,参考字符RCi的风格特征fs_rci以及参考字符RCi对应的标准字符CRi的风格特征fs_cri,输出为目标字符的深度特征ft;其中目标字符与给定字符风格特征相似性矩阵计算模块的输入为目标字符对应标准字符CT的风格特征fs_c,参考字符RCi对应的标准字符CRi的风格特征fs_cri输入为fs_c与fs_cri的相似性矩阵SM;目标字符风格信息生成模块的输入为相似性矩阵SM以及参考字符RCi的风格特征fs_rci,输出为目标字符的风格特征fs;目标文字深度特征融合模块的输入为目标字符的风格特征fs以及目标字符对应标准字符CT的内容特征fc,输出为目标字符的深度特征ft
所述逆向生成网络的Dr的输入为目标字符的深度特征ft,输出为目标字符GC,其中GC具有CT的内容,以及与参考字符RC相一致的风格,即无论内容还是风格都与TC一致;逆向生成网络由逆卷积层和批归一化组成,除最后一层采用Sigmoid激活外,其余层仅采用上采样;
上述描述中CT,CR,RC,TC均为H*W*C的RGB图像,其中H表示图片的高,W表示图片的宽,C为图像的通道数;i表示给定参考字符的索引值;
该方法包括如下步骤:
步骤一,将数据集划分为训练集,验证集和测试集,随机挑选一组风格的字符作为标准集,并对基于深度特征相似性生成对抗网络进行随机初始化;
步骤二,在训练集中进行任务的采样,每一组风格中的参考字符采用随机采样的方法,将任务描述为一个四元组(RCi,CRi,CT,TC),其中i=1,2…K,K表示给定风格字符的个数;其中RCi表示第i个给定的参考字符,CRi表示第i个给定参考字符对应的标准内容字符,CT表示目标字符对应的标准内容字符,TC表示要生成的目标字符本身;
步骤三:将RCi,CRi,CT输入风格特征提取器Es中,分别得到对应字符的深度风格特征fs_rci,fs_cri和fs_c,同时将CT输入内容提取器Ec中,得到对应文字的深度内容特征fc
步骤四:将fs_cri和fs_c输入风格融合器Mf的目标字符与给定参考风格特征相似性矩阵计算模块计算两者之间的深度特征相似性矩阵SM;
步骤五:将fs_rci与SM输入风格融合器Mf的目标字符风格信息生成模块,得到目标字符的风格特征fs
步骤六:将fs与fc输入征融合器Mf的目标文字深度特征融合模块,得到目标字符的融合深度特征ft
步骤七:将目标文字的融合深度特征ft输入逆向生成网络的Dr,得到最终的生成文字GC;
步骤八:通过GC和TC,计算其损失,并通过反向传播,采用随机梯度下降法更新网络G和D的参数;
步骤九:通过验证集中采样到的任务(RCi,CRi,CT,TC)验证网络,若达到停止条件,则停止训练,否则返回步骤二;
步骤十:在应用时,GC=G(RCi,CRi,CT)。
2.根据权利要求1所述的一种风格字符生成方法,其特征在于:步骤二中在训练集中随机挑选的任务,其模拟的是真实的生成任务,对于风格的选择,每一个epoch要进行k次不放回的均匀分布抽样,其中k是数据集里有的风格个数,即在一个epoch的训练中,应保证每一组风格的字符都被选中,且只选中一次,在下一个epoch的任务选择中,每一组风格的字符都被选中,且只选中一次。
3.根据权利要求1所述的一种风格字符生成方法,其特征在于:所述步骤三中风格特征提取器Es和内容提取器Ec的具体特征如下:
第一层卷积核大小为7,第二层和第三层卷积核大小均为3,第1,2,3层的卷积核的通道数分别为64,192,576;ResNet的块的通道数都为576。
4.根据权利要求1所述的一种风格字符生成方法,其特征在于:所述步骤四中深度特征相似性矩阵SM中元素
Figure FDA0002280260690000041
的计算方法如下:
Figure FDA0002280260690000042
Figure FDA0002280260690000043
Figure FDA0002280260690000044
其中,a是权重因子,i,j分别代表矩阵的行和列,K表示给定字符的个数,i也代表第i个给定字符,j代表深度特征的第j个通道;这里计算使用的f是将第j个通道得到的H*W的矩形深度特征拉伸而成的向量;最终
Figure FDA0002280260690000045
表示第i个给定字符的风格特征与目标字符的风格特征在第j个通道的相似度。
5.根据权利要求1所述的一种风格字符生成方法,其特征在于:所述步骤五中目标字符风格信息生成模块的计算方法如下:
Figure FDA0002280260690000046
其中,k为给定参考字符的个数,
Figure FDA0002280260690000047
为SM矩阵的第i行,⊙是利用广播机制的逐元素乘,fs_rci是将第i个参考字符的风格特征由H*W*C的张量在每一个通道上拉伸变为一个(H*W)*C的矩阵。
6.根据权利要求1所述的一种风格字符生成方法,其特征在于:所述步骤六中目标字符的融合深度特征ft是通过fs与fc级联实现。
7.根据权利要求1所述的一种风格字符生成方法,其特征在于,所述步骤七中逆向生成网络Dr的卷积核大小为3*3,步长设置为2。
8.根据权利要求1所述的一种风格字符生成方法,其特征在于:所述步骤八中的损失,具体计算如下:
L=LLSGAN(G,D)+LLG(G)
Figure FDA0002280260690000051
LLG(G)=λ1L1(G)+λ2LMSE(G)=λ1‖G(x)-y‖12(G(x)-y)2
其中LLSGAN(G,D)是最小二乘生成对抗网络损失,LLG(G)是生成损失,x表示三元组(RCi,CRi,CT),y表示目标字符TC,Pdata为样本的真实分布,E是数学期望,G表示生成器,D表示判别器,λ1,λ2是权重因子,表示最小二乘生成对抗网络损失和生成损失在最终损失中所占的比重,L1是1范数,Lmse是均方误差。
9.根据权利1所述的一种风格字符生成方法,其特征在于:所述步骤九中验证网络的停止条件为:
设置阈值loss_min,当平均验证损失loss_val不大于此值时,停止训练;
或当平均验证损失loss_val不再变化时,停止验证;
其中loss_val的计算方式与损失的计算方法一致,取值为全部N组验证任务的平均。
CN201911138722.2A 2019-11-20 2019-11-20 一种风格字符生成的方法 Active CN111046915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911138722.2A CN111046915B (zh) 2019-11-20 2019-11-20 一种风格字符生成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911138722.2A CN111046915B (zh) 2019-11-20 2019-11-20 一种风格字符生成的方法

Publications (2)

Publication Number Publication Date
CN111046915A true CN111046915A (zh) 2020-04-21
CN111046915B CN111046915B (zh) 2022-04-15

Family

ID=70232997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911138722.2A Active CN111046915B (zh) 2019-11-20 2019-11-20 一种风格字符生成的方法

Country Status (1)

Country Link
CN (1) CN111046915B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553837A (zh) * 2020-04-28 2020-08-18 武汉理工大学 一种基于神经风格迁移的艺术文本图像生成方法
CN112801923A (zh) * 2021-04-14 2021-05-14 江西博微新技术有限公司 文字处理方法、系统、可读存储介质及计算机设备
WO2023125361A1 (zh) * 2021-12-29 2023-07-06 北京字跳网络技术有限公司 文字生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
GB201903972D0 (en) * 2018-06-15 2019-05-08 Adobe Inc Synthesizing new font glyphs from partial observations
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110443864A (zh) * 2019-07-24 2019-11-12 北京大学 一种基于单阶段少量样本学习的艺术字体自动生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201903972D0 (en) * 2018-06-15 2019-05-08 Adobe Inc Synthesizing new font glyphs from partial observations
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110443864A (zh) * 2019-07-24 2019-11-12 北京大学 一种基于单阶段少量样本学习的艺术字体自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
F. LUAN,ET AL.: "Deep photo style transfer", 《PROC. IEEE CONF. COMPUT. VIS. PATTERN RECOGNIT》 *
金连文 等: "深度学习在手写汉字识别中的应用综述", 《自动化学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553837A (zh) * 2020-04-28 2020-08-18 武汉理工大学 一种基于神经风格迁移的艺术文本图像生成方法
CN111553837B (zh) * 2020-04-28 2022-04-29 武汉理工大学 一种基于神经风格迁移的艺术文本图像生成方法
CN112801923A (zh) * 2021-04-14 2021-05-14 江西博微新技术有限公司 文字处理方法、系统、可读存储介质及计算机设备
WO2023125361A1 (zh) * 2021-12-29 2023-07-06 北京字跳网络技术有限公司 文字生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111046915B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
EP3166049B1 (en) Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US11899927B2 (en) Simulated handwriting image generator
CN107767328B (zh) 基于少量样本生成的任意风格和内容的迁移方法和系统
CN111046915B (zh) 一种风格字符生成的方法
CN109118467B (zh) 基于生成对抗网络的红外与可见光图像融合方法
CN111126256B (zh) 一种基于自适应空谱多尺度网络的高光谱图像分类方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN107239733A (zh) 连续手写字识别方法及系统
CN108154222A (zh) 深度神经网络训练方法和系统、电子设备
CN110334724B (zh) 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN111242841A (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN110032634A (zh) 一种基于多类型深度特征的中文命名实体识别方法
CN111915522A (zh) 一种基于注意力机制的图像修复方法
CN113255813B (zh) 一种基于特征融合的多风格图像生成方法
CN112163401A (zh) 基于压缩与激励的gan网络的汉字字体生成方法
CN111783779A (zh) 图像处理方法、装置和计算机可读存储介质
US9159147B2 (en) Method and apparatus for personalized handwriting avatar
CN116051683B (zh) 一种基于风格自组的遥感图像生成方法、存储介质及设备
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
CN112101364A (zh) 基于参数重要性增量学习的语义分割方法
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
He et al. Diff-font: Diffusion model for robust one-shot font generation
CN110659702A (zh) 基于生成式对抗网络模型书法字帖评价系统及方法
Gain et al. A novel unbiased deep learning approach (dl-net) in feature space for converting gray to color image
Ebrahimpour et al. Recognition of Persian handwritten digits using Characterization Loci and Mixture of Experts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221115

Address after: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee after: WUHAN University OF TECHNOLOGY

Address before: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee before: WUHAN University OF TECHNOLOGY

Patentee before: WUHAN SHUIXIANG ELECTRONIC TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right