CN111753493A - 基于少量样本的内含多种归一化处理的风格字符生成方法 - Google Patents

基于少量样本的内含多种归一化处理的风格字符生成方法 Download PDF

Info

Publication number
CN111753493A
CN111753493A CN201910933634.5A CN201910933634A CN111753493A CN 111753493 A CN111753493 A CN 111753493A CN 201910933634 A CN201910933634 A CN 201910933634A CN 111753493 A CN111753493 A CN 111753493A
Authority
CN
China
Prior art keywords
style
character
level
characters
enc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910933634.5A
Other languages
English (en)
Inventor
黄开竹
江浩川
杨关禹
程飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong Liverpool University
Original Assignee
Xian Jiaotong Liverpool University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong Liverpool University filed Critical Xian Jiaotong Liverpool University
Priority to CN201910933634.5A priority Critical patent/CN111753493A/zh
Publication of CN111753493A publication Critical patent/CN111753493A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于少量样本的内含多种归一化处理的风格字符生成方法,以若干种风格字符组成风格参考字符数据集,以及多种内容相同的标准字体字符作为字符内容原型数据源,使用基于深度生成对抗网络的包含混合器和多种归一化方式的图像翻译模型,训练中使用本专利提出的对抗损失函数,最终可以训练出一个用于字符风格迁移的内含多种归一化处理的字符生成模型;充分训练的模型能够通过少量或者甚至一个带有同一风格的字符作为风格参考样板,生成带有同种书写或印刷风格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定。

Description

基于少量样本的内含多种归一化处理的风格字符生成方法
技术领域
本发明涉及一种风格字符生成方法,尤其涉及一种基于少量样本风格的手 写或印刷体字符生成方法。
背景技术
字体,在各国文字与文化中都具有非常重要的地位和意义,尤其是在中国, 书法艺术源远流长,但是汉字因为单子数量众多,对计算机字体的制作产生了 巨大的挑战。
2016年,Z.H.Lian在SIGGRAPHASIA上发论文《Automatic generation of large-scale handwriting fonts via style learning》,提出了一种可以让用户提供266 个字符来生成27533个风格类似的字符。但是,该模型的训练需要提供大量的 标注数据,并且需要用户较为规范的输入才能得到预期的结果,在较少标注数 据的情况下的效果不好。而且模型的重点在于笔画风格的模仿,而不是汉字整 体风格的学习。
IsolaPhillip等的论文《Image-to-Image Translation with ConditionalAdversarial Networks》提出的pix2pix,受此启发,zi2zi被提出。并与2017年由 Z.H.Lian等发表《DCFont:an end-to-end deep chinese font generation system》则 提出了原本模型的改进方法:引入条件生成式对抗网络(cGAN),将学习笔画 轮廓替换为在标准字体(例如楷体)的基础上加入手写风格的特征。手写特征 提取则由生成器(encoder-decoder)和VGG-16深度卷积网络完成。
然而模型的问题仍然是无法处理很潦草的输入字符风格问题,并且需要较 多的训练样本。
H.Jiang等在ICONIP2018发表的论文《W-Net:One-Shot Arbitrary-StyleChinese Character Generation with Deep Neural Networks》提出了一种形状类似于“W”的风格迁移网络,通过对极少量字符的内容原型和风格参考信息的提取及融 合,最终重构出带有目标风格的指定内容字符。然而,该方法的训练速度缓慢, 需要连续训练数月才能得到有效的模型。
发明内容
本发明的目的是提供一种基于少量样本的内含多种归一化处理的风格字符 生成方法,该风格字符生成方法实现了根据同一风格的少量(甚至一个)字符生成 相应风格的字体,包括手写体和印刷体。
为达到上述目的,本发明采用的技术方案是:一种基于少量样本的内含多 种归一化处理的风格字符生成方法,其特征在于:以若干种风格字符组成风格 参考字符数据集,以及多种内容相同的标准字体字符作为字符内容原型数据源, 使用基于深度生成对抗网络的包含混合器和多种归一化方式的图像翻译模型, 训练中使用本专利提出的对抗损失函数,最终可以训练出一个用于字符风格迁 移的内含多种归一化处理的字符生成模型;充分训练的模型能够通过少量或者 甚至一个带有同一风格的字符作为风格参考样板,生成带有同种书写或印刷风 格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定;
所述字符生成模型由内容原型编码器Content Prototype Encoder(Encp),风格参考编码器Style Reference Encoder(Encr)混合器Mixer和解码器Decoder(Dec) 所组成;其中,在Encp、Mixer和Dec中都引入了不同的归一化处理,该方法 可以提高模型训练中的收敛速度;在模型训练中,引入了新的生成对抗损失函 数,可以让模型最终生成的字符的风格与输入风格更加相似;
所述内容原型编码器Content Prototype Encoder,Encp,输入数据为K个带 有标准风格且内容相同的字符
Figure BDA0002221018370000021
表示成长宽为64*64,值域 在[0,255]之间的K个灰度图片,输出为经过各级卷积特征;该内容原型编码器 由连续的间隔步幅值为2的卷积运算及归一化过程所组成,用于提取所输入的 标准字符
Figure BDA0002221018370000022
从低级到高级的各级特征,其中,第一级特种为K 个输入字符的融合信息,其维度为32*32*64,之后每级特征较之其上一级特征, 特征长宽减半,厚度翻倍但不超过512,其所得到的标准字符的最高级特征,长 宽均为1;
所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种 风格N个不同字符(
Figure BDA0002221018370000023
风格用i来表示),同样表示成长宽为 64*64,值域在[0,255]之间的N个灰度图片,输出为经过平均运算或最大值/最小 值运算后,对应的各级卷积特征;该风格参考编码器基本结构与Encp相似,但 第一级特征未将N个输入字符的信息融合,其维度为N*32*32*64,因此相较于 内容原型编码器,风格参考编码器中每一层都保留了N个对应级卷积特征,而 之后的信息传递过程中,为了处理一次性输入的多个(N个)带有某种书写风 格字符(假设为第i个风格,
Figure BDA0002221018370000024
)所对应的风格信息,首先需要对 各级N个卷积特征进行平均运算,得到与内容原型编码器输出维度相同的各级 特征,再送入混合器Mixer;在风格参考编码器(Encr)中省略归一化处理;
所述混合器Mixer的输入为内容原型编码器(Encp)和风格参考编码器(Encr) 输出的各级特征,该混合器Mixer将对应的第一至六级特征进行混合运算处理 后输入至解码器网络的对应层,其中所述混合运算处理为:对于第四至六级特 征,先对内容原型编码器传递的特征进行归一化处理,再与风格参考编码器传 递特征进行串联;对于第三级特征,先进行串联处理,再经过若干个(L个)包 含归一化处理的深度神经网络单元(Deep NeuralNetworks Blocks,DNN Blocks) 运算;对于第一、二级特征,先对内容原型编码器传递的特征进行归一化处理, 再分别进行L+4,L+2个包含归一化处理的深度神经网络单元运算,舍去风格参 考编码器的传递内容;
所述包含归一化处理的深度神经网络单元DNN Blocks可选用Residual Block或Dense Block两种模式,其中所包含的批归一化处理(Batch Normalization)可替换为其他相应的归一化处理;
对于混合器Mixer,其内容原型编码器Encp所传递特征采用以风格参考编 码器Encr所传递特征为参照的自适应实例归一化Adapted Instance Normalization,AdaIN,其深度神经网络单元DNN Blocks采用改进型自适应实 例归一化Modified AdaptedInstance Normalization,MAdaIN;
所述改进型自适应实例归一化处理MAdaIN包含以下过程:对风格参考编 码器的各级输出进行若干次步长为1的卷积运算,得出与对应级输出的维度相 同的卷积特征,以该卷积特征为参照,对对应的各级串联特征进行自适应实例 归一化Adapted InstanceNormalization,AdaIN;
所述解码器Decoder,Dec,输入为混合器输出的第六级特征,即维度为 1*1*1024的卷积特征,除输入层外,每一级特征向后传递前,与混合器Mixer 传递的对应层特征进行串联操作,该解码器由连续的卷积间隔步幅值为2的反 卷积运算及归一化处理所组成,即后一级特征的长宽是前一级特征的两倍,最 终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;对于解码器 Dec均采用层归一化Layer Normalization,LN;
最终,所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进 行特征提取,并将网络每层提取的信息通过混合器Mixer运算和部分串联后, 输入解码器网络Dec的对应层,解码器网络对从混合器Mixer输入来的各级卷积 特征进行恢复及重建,输出带有某一种的风格的生成字符
Figure BDA0002221018370000031
亦表示为同样表示成长宽为64*64,值域 在[0,255]之间的灰度图片;
该生成字符的内容来源于输入到Encp的标准字符
Figure BDA0002221018370000041
风 格来源于输入到Encr的N个带有第i个风格的字符
Figure BDA0002221018370000042
具体地,基于少量样本的内含多种归一化处理的风格字符生成方法包括以 下步骤:
步骤1、训练开始之前,需要对字符生成模型的参数进行随机初始化,从而 给定训练的开始状态;
步骤2、我们使用随机优化的训练策略来对该字符生成模型进行训练,训练 目标即为最小化字符生成模型的训练误差LG
步骤3、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即 称为训练完成的字符生成模型;
步骤4、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,
Figure BDA0002221018370000043
),并将此N个字依次输入到训练完成的字符生成模型的风格参 考编码器Encr,得出N份各级卷积特征,对应N个不同的同风格字符;
步骤5、对由Encr计算得出的,对应于N个输入的带有同一种书写风格的字 符的N份各级卷积特征进行平均计算或取最大值/最小值运算,得出N份各级卷 积特征对应的一份有代表性的各级卷积体征;
步骤6、向内容原型编码器Encp输入欲生成字符对应的若干个标准字体字 符(假设为K个,
Figure BDA0002221018370000044
),计算出各级卷积特征;
步骤7、将Encr、Encp所提取的各级卷积特征,输入混合器Mixer中进行对 应的混合运算处理;
步骤8、将Mixer运算处理结果传入解码器Dec中,从而生成欲生成的带有 特定风格的任意字符,
Figure BDA0002221018370000045
上述技术方案中进一步改进的技术方案如下:
上述方案中,所述步骤2具体包括以下步骤:
步骤2-1、我们从训练数据集中随机选取一批训练数据,一批数据的大小一 般设置为16个数据,其中一个数据由一组内容原型相同的字符组成,包括K个 标准字符
Figure BDA0002221018370000046
和带有某一个特定风格的字符的真实样本
Figure BDA0002221018370000047
步骤2-2、此后,根据所选取的带有某一个特定风格的风格字符
Figure BDA0002221018370000048
随 机从同一个训练数据集中选取另外N个带有同样风格的不同内容原型的字符
Figure BDA0002221018370000049
步骤2-3、将
Figure BDA0002221018370000051
输入Encp
Figure BDA0002221018370000052
输入Encr,从而获 取两个编码器各级卷积特征;
步骤2-4、将上一步获得的两个编码器的各级卷积特征根据步骤七、步骤八 所描述的关系送入混合器经过混合运算后再传入解码器,从而生成希望生成的 带有某一个特定书写风格的字符样
Figure BDA0002221018370000053
步骤2-5、将上一步所生成的字符样本计算以下两个训练误差:
Figure BDA0002221018370000054
训练中引入“生成对抗网络”的的训练方法,即在训练所要得到的字符生成模 型(G)之外,同时训练另外一个以卷积神经网络为基础的一个判别式模型(D), 该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据,如果 输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零, 当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数 据已经具有很高的质量,已经无法与真实数据相区分了;生成对抗网络的训练 方法所对应的误差称为对抗损失,本专利中所提出的字符生成网络称为生成对 抗网络中的生成模型(G);
在步骤2-5中,所述训练误差中:
(1)对抗误差Ladv-G、Ladv-D和梯度惩罚Ladv-GP分别为:
Figure BDA0002221018370000055
其中k′,n′分别为从[1,2,…,K]和[1,2,…,N]随机采样的结果;
(2)辅助分类器误差Lac为用判别式模型(D)所提特征进行分类任务时产 生的分类误差,公式如下:
Figure BDA0002221018370000056
(3)生成样本
Figure BDA0002221018370000057
与数据库中真实样本
Figure BDA0002221018370000058
的1-范数误差Lpixel为:
Figure BDA0002221018370000059
(4)深度感知误差
Figure BDA00022210183700000510
用 于衡量生成字符与真实字符在深度特征上的差异,我们使用三个预先训练好的VGG-16网络,这三个VGG-16网络为基于卷积神经网络的深度学习模型,分别 用于区分不同字符,风格和字体;此时,将
Figure BDA0002221018370000061
Figure BDA0002221018370000062
分别输入到该网络中,即可得到各自的逐级卷积特征,记为
Figure BDA0002221018370000063
Figure BDA0002221018370000064
则深度特征误差Lφ表示为:
Figure RE-GDA0002648579280000065
Figure RE-GDA0002648579280000066
用于衡量生成字符与真实字符深度特征间的均方误差散度和冯诺伊曼散 度,其中当使用字符,风格和字体分类VGG-16网络时,φ分别对应φreal,φstyle和 φcontent,在本专利中,我们选取VGG-16中Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷 积特征来计算高级特征误差;
(5)恒定误差
Figure BDA0002221018370000068
Figure BDA0002221018370000069
用于衡量生成字符和真实字符在内容原型编 码器Encp、风格参考编码器Encr所提取最终层特征间的误差,其中:
Figure BDA0002221018370000066
Figure BDA0002221018370000067
步骤2-6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首 先根据最小化LG来优化网络G(字符生成模型),此后,根据最小化LD来优化网 络D,每个迭代过程使用Adams优化方法交替地对G和D网络进行参数更新。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明基于少量样本的内含多种归一化处理的风格字符生成方法,其基于 极少量的相同风格的字符样本,生成代用同样风格的其他字符。该方法可以使 用最少一个带有任意印刷体或者手写体风格的字符作为参考样本,生成其他任 意风格的字符,生成的字符的内容由输入的带有标准风格的内容原型决定,而 内容原型的语言种类不限,在生成对抗网络中使用了混合器和归一化处理,以 及提出了全新的损失函数,所以训练速度更快,最终生成的字符与输入的风格 更加接近。
附图说明
附图1为本发明模型结构示意图;
附图2为本发明基于少两样本的内含多种归一化处理的风格字符生成方法 模型示意图;
附图3为附图2中特征带有归一化处理的混合器示意图;
附图4为附图2中带有AdaIN的混合器示意图;
附图5为由输入的一个带有某种印刷风格的字符所生成的其它带有同种印 刷风格的汉字;
附图6为为由输入的一个带有某种手写风格的字符所生成的其它带有同种 手写风格的汉字;
附图7为由输入的四个带有某种手写风格的字符所生成的其它带有同种手 写风格的汉字;
附图8为由输入的八个带有某种印刷风格的字符所生成的其它带有同种印 刷风格的汉字。
具体实施方式
下面结合实施例对本发明作进一步描述:
实施例:一种基于少量样本的内含多种归一化处理的风格字符生成方法, 以若干种风格字符组成风格参考字符数据集,以及多种内容相同的标准字体字 符作为字符内容原型数据源,使用基于深度生成对抗网络的包含混合器和多种 归一化方式的图像翻译模型,训练中使用本专利提出的对抗损失函数,最终可 以训练出一个用于字符风格迁移的内含多种归一化处理的字符生成模型;充分 训练的模型能够通过少量或者甚至一个带有同一风格的字符作为风格参考样 板,生成带有同种书写或印刷风格的任意字符,生成字符的内容则由输入的带 有标准风格的内容原型来决定。
所述字符生成模型由内容原型编码器Content Prototype Encoder(Encp),风格参考编码器Style Reference Encoder(Encr)混合器Mixer和解码器Decoder(Dec) 所组成。其中,在Encp、Mixer和Dec中都引入了不同的归一化处理,该方法 可以提高模型训练中的收敛速度;在模型训练中,引入了新的生成对抗损失函 数,可以让模型最终生成的字符的风格与输入风格更加相似。
所述内容原型编码器Content Prototype Encoder,Encp,输入数据为K个带 有标准风格且内容相同的字符
Figure BDA0002221018370000082
表示成长宽为64*64,值域 在[0,255]之间的K个灰度图片,输出为经过各级卷积特征;该内容原型编码器 由连续的间隔步幅值为2的卷积运算及归一化过程所组成,,用于提取所输入的 标准字符
Figure BDA0002221018370000083
从低级到高级的各级特征,其中,第一级特种为K 个输入字符的融合信息,其维度为32*32*64,之后每级特征较之其上一级特征, 特征长宽减半,厚度翻倍但不超过512,其所得到的标准字符的最高级特征,长 宽均为1。在内容原型编码器(Encp)中采用的归一化方法为实例归一化Instance Normalization,IN。
所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种 风格N个不同字符(
Figure BDA0002221018370000084
风格用i来表示),,同样表示成长宽为 64*64,值域在[0,255]之间的N个灰度图片,输出为经过平均运算或最大值/最小 值运算后,对应的各级卷积特征;该风格参考编码器基本结构与Encp相似,但 第一级特征未将N个输入字符的信息融合,其维度为N*32*32*64,因此相较于 内容原型编码器,风格参考编码器中每一层都保留了N个对应级卷积特征,而 之后的信息传递过程中,为了处理一次性输入的多个(N个)带有某种书写风 格字符(假设为第i个风格,
Figure BDA0002221018370000091
)所对应的风格信息,首先需要对 各级N个卷积特征进行平均运算,得到与内容原型编码器输出维度相同的各级 特征,再送入混合器Mixer;在风格参考编码器(Encr)中省略归一化处理。
所述混合器Mixer的输入为内容原型编码器(Encp)和风格参考编码器(Encr) 输出的各级特征,该混合器Mixer将对应的第一至六级特征进行混合运算处理 后输入至解码器网络的对应层,其中所述混合运算处理为:对于第四至六级特 征,先对内容原型编码器传递的特征进行归一化处理,再与风格参考编码器传 递特征进行串联;对于第三级特征,先进行串联处理,再经过若干个(L个)包 含归一化处理的深度神经网络单元(Deep NeuralNetworks Blocks,DNN Blocks) 运算;对于第一、二级特征,先对内容原型编码器传递的特征进行归一化处理, 再分别进行L+4,L+2个包含归一化处理的深度神经网络单元运算,舍去风格参 考编码器的传递内容。
所述包含归一化处理的深度神经网络单元DNN Blocks可选用Residual Block或Dense Block两种模式,其中所包含的批归一化处理(Batch Normalization)可替换为其他相应的归一化处理。
对于混合器Mixer,其内容原型编码器Encp所传递特征采用以风格参考编 码器Encr所传递特征为参照的自适应实例归一化Adapted Instance Normalization,AdaIN,其深度神经网络单元DNN Blocks采用改进型自适应实 例归一化Modified AdaptedInstance Normalization,MAdaIN。
所述改进型自适应实例归一化处理MAdaIN包含以下过程:对风格参考编 码器的各级输出进行若干次步长为1的卷积运算,得出与对应级输出的维度相 同的卷积特征,以该卷积特征为参照,对应的各级串联特征进行自适应实例归 一化Adapted InstanceNormalization,AdaIN,其结构如附图4所示。
所述解码器Decoder,Dec,输入为混合器输出的第六级特征,即维度为 1*1*1024的卷积特征,除输入层外,每一级特征向后传递前,与混合器Mixer 传递的对应层特征进行串联操作,该解码器由连续的卷积间隔步幅值为2的反 卷积运算及归一化处理所组成,即后一级特征的长宽是前一级特征的两倍,最 终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;对于解码器Dec均采用层归一化Layer Normalization,LN。
最终,所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进 行特征提取,并将网络每层提取的信息通过混合器Mixer运算和部分串联后, 输入解码器网络Dec的对应层,解码器网络对从混合器Mixer输入来的各级卷积 特征进行恢复及重建,输出带有某一种的风格的生成字符
Figure BDA0002221018370000101
亦表示为同样表示成长宽为64*64,值域 在[0,255]之间的灰度图片;
该生成字符的内容来源于输入到Encp的标准字符
Figure BDA0002221018370000102
风 格来源于输入到Encr的N个带有第i个风格的字符
Figure BDA0002221018370000103
具体地,基于少量样本的内含多种归一化处理的风格字符生成方法包括以 下步骤:
步骤1、训练开始之前,需要对字符生成模型的参数进行随机初始化,从而 给定训练的开始状态;
步骤2、我们使用随机优化的训练策略来对该字符生成模型进行训练,训练 目标即为最小化字符生成模型的训练误差LG
步骤3、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即 称为训练完成的字符生成模型;
步骤4、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,
Figure BDA0002221018370000104
),并将此N个字依次输入到训练完成的字符生成模型的风格参 考编码器Encr,得出N份各级卷积特征,对应N个不同的同风格字符;
步骤5、对由Encr计算得出的,对应于N个输入的带有同一种书写风格的字 符的N份各级卷积特征进行平均计算或取最大值/最小值运算,得出N份各级卷 积特征对应的一份有代表性的各级卷积体征;
步骤6、向内容原型编码器Encp输入欲生成字符对应的若干个标准字体字 符(假设为K个,
Figure BDA0002221018370000105
),计算出各级卷积特征;
步骤7、将Encr、Encp所提取的各级卷积特征,输入混合器Mixer中进行对 应的混合运算处理;
步骤8、将Mixer运算处理结果传入解码器Dec中,从而生成欲生成的带有特 定风格的任意字符,
Figure BDA0002221018370000106
所述步骤2具体包括以下步骤:
步骤2-1、我们从训练数据集中随机选取一批训练数据,一批数据的大小一 般设置为16个数据,其中一个数据由一组内容原型相同的字符组成,包括K个 标准字符
Figure BDA0002221018370000111
和带有某一个特定风格的字符的真实样本
Figure BDA0002221018370000112
步骤2-2、此后,根据所选取的带有某一个特定风格的风格字符
Figure BDA0002221018370000113
随 机从同一个训练数据集中选取另外N个带有同样风格的不同内容原型的字符
Figure BDA0002221018370000114
步骤2-3、将
Figure BDA0002221018370000115
输入Encp
Figure BDA0002221018370000116
输入Encr,从而获 取两个编码器各级卷积特征;
步骤2-4、将上一步获得的两个编码器的各级卷积特征根据步骤七、步骤八 所描述的关系送入混合器经过混合运算后再传入解码器,从而生成希望生成的 带有某一个特定书写风格的字符样
Figure BDA0002221018370000117
步骤2-5、将上一步所生成的字符样本计算以下两个训练误差:
Figure BDA0002221018370000118
训练中引入“生成对抗网络”的的训练方法,即在训练所要得到的字符生成模 型(G)之外,同时训练另外一个以卷积神经网络为基础的一个判别式模型(D), 该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据,如果 输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零, 当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数 据已经具有很高的质量,已经无法与真实数据相区分了;生成对抗网络的训练 方法所对应的误差称为对抗损失,本专利中所提出的字符生成网络称为生成对 抗网络中的生成模型(G)。
在步骤2-5中,所述训练误差中:
(1)对抗误差Ladv-G、Ladv-D和梯度惩罚Ladv-GP分别为:
Figure BDA0002221018370000119
其中k′,n′分别为从[1,2,…,K]和[1,2,…,N]随机采样的结果;
(2)辅助分类器误差Lac为用判别式模型(D)所提特征进行分类任务时产 生的分类误差,公式如下:
Figure BDA00022210183700001110
(3)生成样本
Figure BDA0002221018370000121
与数据库中真实样本
Figure BDA0002221018370000122
的1-范数误差Lpixel为:
Figure BDA0002221018370000123
(4)深度感知误差
Figure BDA0002221018370000124
用 于衡量生成字符与真实字符在深度特征上的差异,我们使用三个预先训练好的 VGG-16网络,这三个VGG-16网络为基于卷积神经网络的深度学习模型,分别 用于区分不同字符,风格和字体。此时,将
Figure BDA0002221018370000125
Figure BDA0002221018370000126
分别输入到该网络中,即可得到各自的逐级卷积特征,记为
Figure BDA0002221018370000127
Figure BDA0002221018370000128
则深度特征误差Lφ表示为:
Figure RE-GDA00026485792800001111
Figure RE-GDA00026485792800001112
用于衡量生成字符与真实字符深度特征间的均方误差散度和冯诺伊曼散 度,其中当使用字符,风格和字体分类VGG-16网络时,φ分别对应φreal,φstyle和 φcontent,在本专利中,我们选取VGG-16中Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷 积特征来计算高级特征误差;
(5)恒定误差
Figure BDA00022210183700001210
Figure BDA00022210183700001211
用于衡量生成字符和真实字符在内容原型编 码器Encp、风格参考编码器Encr所提取最终层特征间的误差,其中:
Figure BDA00022210183700001212
Figure BDA00022210183700001213
步骤2-6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首先 根据最小化LG来优化网络G(字符生成模型),此后,根据最小化LD来优化网络 D,每个迭代过程使用Adams优化方法交替地对G和D网络进行参数更新。
附图5~附图8给出一些根据较少样本的带有某种风格(印刷风格或者手写风 格)的标定样本,使用本发明中所提出的字符生成模型所产生的带有同种风格的 其它字符。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技 术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范 围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护 范围之内。

Claims (2)

1.一种基于少量样本的内含多种归一化处理的风格字符生成方法,其特征在于:以若干种风格字符组成风格参考字符数据集,以及多种内容相同的标准字体字符作为字符内容原型数据源,使用基于深度生成对抗网络的包含混合器和多种归一化方式的图像翻译模型,训练中使用本专利提出的对抗损失函数,最终可以训练出一个用于字符风格迁移的内含多种归一化处理的字符生成模型;充分训练的模型能够通过少量或者甚至一个带有同一风格的字符作为风格参考样板,生成带有同种书写或印刷风格的任意字符,生成字符的内容则由输入的带有标准风格的内容原型来决定;
所述字符生成模型由内容原型编码器Content Prototype Encoder(Encp),风格参考编码器Style Reference Encoder(Encr)混合器Mixer和解码器Decoder(Dec)所组成;其中,在Encp、Mixer和Dec中都引入了不同的归一化处理,该方法可以提高模型训练中的收敛速度;在模型训练中,引入了新的生成对抗损失函数,可以让模型最终生成的字符的风格与输入风格更加相似;
所述内容原型编码器Content Prototype Encoder,Encp,输入数据为K个带有标准风格且内容相同的字符
Figure FDA0002221018360000011
表示成长宽为64*64,值域在[0,255]之间的K个灰度图片,输出为经过各级卷积特征;该内容原型编码器由连续的间隔步幅值为2的卷积运算及归一化过程所组成,用于提取所输入的标准字符
Figure FDA0002221018360000012
从低级到高级的各级特征,其中,第一级特种为K个输入字符的融合信息,其维度为32*32*64,之后每级特征较之其上一级特征,特征长宽减半,厚度翻倍但不超过512,其所得到的标准字符的最高级特征,长宽均为1;
所述风格参考编码器Style Reference Encoder,Encr,其输入为带有某一种风格N个不同字符
Figure FDA0002221018360000013
风格用i来表示),同样表示成长宽为64*64,值域在[0,255]之间的N个灰度图片,输出为经过平均运算或最大值/最小值运算后,对应的各级卷积特征;该风格参考编码器基本结构与Encp相似,但第一级特征未将N个输入字符的信息融合,其维度为N*32*32*64,因此相较于内容原型编码器,风格参考编码器中每一层都保留了N个对应级卷积特征,而之后的信息传递过程中,为了处理一次性输入的多个(N个)带有某种书写风格字符(假设为第i个风格,
Figure FDA0002221018360000014
)所对应的风格信息,首先需要对各级N个卷积特征进行平均运算,得到与内容原型编码器输出维度相同的各级特征,再送入混合器Mixer;在风格参考编码器(Encr)中省略归一化处理;
所述混合器Mixer的输入为内容原型编码器(Encp)和风格参考编码器(Encr)输出的各级特征,该混合器Mixer将对应的第一至六级特征进行混合运算处理后输入至解码器网络的对应层,其中所述混合运算处理为:对于第四至六级特征,先对内容原型编码器传递的特征进行归一化处理,再与风格参考编码器传递特征进行串联;对于第三级特征,先进行串联处理,再经过若干个(L个)包含归一化处理的深度神经网络单元(Deep Neural NetworksBlocks,DNN Blocks)运算;对于第一、二级特征,先对内容原型编码器传递的特征进行归一化处理,再分别进行L+4,L+2个包含归一化处理的深度神经网络单元运算,舍去风格参考编码器的传递内容;
所述包含归一化处理的深度神经网络单元DNN Blocks可选用Residual Block或DenseBlock两种模式,其中所包含的批归一化处理(Batch Normalization)可替换为其他相应的归一化处理;
对于混合器Mixer,其内容原型编码器Encp所传递特征采用以风格参考编码器Encr所传递特征为参照的自适应实例归一化Adapted Instance Normalization,AdaIN,其深度神经网络单元DNN Blocks采用改进型自适应实例归一化Modified Adapted InstanceNormalization,MAdaIN;
所述改进型自适应实例归一化处理MAdaIN包含以下过程:对风格参考编码器的各级输出进行若干次步长为1的卷积运算,得出与对应级输出的维度相同的卷积特征,以该卷积特征为参照,对对应的各级串联特征进行自适应实例归一化Adapted InstanceNormalization,AdaIN;
所述解码器Decoder,Dec,输入为混合器输出的第六级特征,即维度为1*1*1024的卷积特征,除输入层外,每一级特征向后传递前,与混合器Mixer传递的对应层特征进行串联操作,该解码器由连续的卷积间隔步幅值为2的反卷积运算及归一化处理所组成,即后一级特征的长宽是前一级特征的两倍,最终生成与输入的无风格标准字符长宽一致的具有特定风格的字符;对于解码器Dec均采用层归一化Layer Normalization,LN;
最终,所述内容原型编码器Encp、风格参考编码器Encr对各自输入数据进行特征提取,并将网络每层提取的信息通过混合器Mixer运算和部分串联后,输入解码器网络Dec的对应层,解码器网络对从混合器Mixer输入来的各级卷积特征进行恢复及重建,输出带有某一种的风格的生成字符
Figure FDA0002221018360000021
亦表示为同样表示成长宽为64*64,值域在[0,255]之间的灰度图片;
该生成字符的内容来源于输入到Encp的标准字符
Figure FDA0002221018360000031
风格来源于输入到Encr的N个带有第i个风格的字符
Figure FDA0002221018360000032
具体地,基于少量样本的内含多种归一化处理的风格字符生成方法包括以下步骤:
步骤1、训练开始之前,需要对字符生成模型的参数进行随机初始化,从而给定训练的开始状态;
步骤2、我们使用随机优化的训练策略来对该字符生成模型进行训练,训练目标即为最小化字符生成模型的训练误差LG
步骤3、当LG的值不再继续下降后,停止训练,此时训练所得的模型参数即称为训练完成的字符生成模型;
步骤4、获取某个书写风格的任意若干个字符(假设为N个,一般N<=32,
Figure FDA0002221018360000033
),并将此N个字依次输入到训练完成的字符生成模型的风格参考编码器Encr,得出N份各级卷积特征,对应N个不同的同风格字符;
步骤5、对由Encr计算得出的,对应于N个输入的带有同一种书写风格的字符的N份各级卷积特征进行平均计算或取最大值/最小值运算,得出N份各级卷积特征对应的一份有代表性的各级卷积体征;
步骤6、向内容原型编码器Encp输入欲生成字符对应的若干个标准字体字符(假设为K个,
Figure FDA0002221018360000034
),计算出各级卷积特征;
步骤7、将Encr、Encp所提取的各级卷积特征,输入混合器Mixer中进行对应的混合运算处理;
步骤8、将Mixer运算处理结果传入解码器Dec中,从而生成欲生成的带有特定风格的任意字符,
Figure FDA0002221018360000035
2.根据权利要求1所述的基于少量样本的内含多种归一化处理的风格字符生成方法,其特征在于:所述步骤2具体包括以下步骤:
步骤2-1、我们从训练数据集中随机选取一批训练数据,一批数据的大小一般设置为16个数据,其中一个数据由一组内容原型相同的字符组成,包括K个标准字符
Figure FDA0002221018360000036
和带有某一个特定风格的字符的真实样本
Figure FDA0002221018360000037
步骤2-2、此后,根据所选取的带有某一个特定风格的风格字符
Figure FDA0002221018360000038
随机从同一个训练数据集中选取另外N个带有同样风格的不同内容原型的字符
Figure FDA0002221018360000039
步骤2-3、将
Figure FDA0002221018360000041
输入Encp
Figure FDA0002221018360000042
输入Encr,从而获取两个编码器各级卷积特征;
步骤2-4、将上一步获得的两个编码器的各级卷积特征根据步骤七、步骤八所描述的关系送入混合器经过混合运算后再传入解码器,从而生成希望生成的带有某一个特定书写风格的字符样
Figure FDA0002221018360000043
步骤2-5、将上一步所生成的字符样本计算以下两个训练误差:
Figure FDA0002221018360000044
LD=αLadv-DGPLadv-GO+βLac
训练中引入“生成对抗网络”的的训练方法,即在训练所要得到的字符生成模型(G)之外,同时训练另外一个以卷积神经网络为基础的一个判别式模型(D),该模型的基本功能是用于判断输入模型的数据为真实数据还是生成数据,如果输入的数据是真实数据,则输出为1;如果输入的数据为生成数据,则输出为零,当该判别式模型无法有效地区分真实数据和生成数据时,我们可以认为生成数据已经具有很高的质量,已经无法与真实数据相区分了;生成对抗网络的训练方法所对应的误差称为对抗损失,本专利中所提出的字符生成网络称为生成对抗网络中的生成模型(G);
在步骤2-5中,所述训练误差中:
(1)对抗误差Ladv-G、Ladv-D和梯度惩罚Ladv-GP分别为:
Figure FDA0002221018360000045
其中k′,n′分别为从[1,2,…,K]和[1,2,…,N]随机采样的结果;
(2)辅助分类器误差Lac为用判别式模型(D)所提特征进行分类任务时产生的分类误差,公式如下:
Figure FDA0002221018360000046
(3)生成样本
Figure FDA0002221018360000047
与数据库中真实样本
Figure FDA0002221018360000048
的1-范数误差Lpixel为:
Figure FDA0002221018360000049
(4)深度感知误差
Figure FDA00022210183600000410
用于衡量生成字符与真实字符在深度特征上的差异,我们使用三个预先训练好的VGG-16网络,这三个VGG-16网络为基于卷积神经网络的深度学习模型,分别用于区分不同字符,风格和字体;此时,将
Figure FDA0002221018360000051
Figure FDA0002221018360000052
分别输入到该网络中,即可得到各自的逐级卷积特征,记为
Figure FDA0002221018360000053
Figure FDA0002221018360000054
则深度特征误差Lφ表示为:
Figure FDA0002221018360000055
Figure FDA0002221018360000056
用于衡量生成字符与真实字符深度特征间的均方误差散度和冯诺伊曼散度,其中当使用字符,风格和字体分类VGG-16网络时,φ分别对应φreal,φstyle和φcontent,在本专利中,我们选取VGG-16中Φ1-2,Φ2-2,Φ3-3,Φ4-3,Φ5-3五个卷积特征来计算高级特征误差;
(5)恒定误差
Figure FDA0002221018360000057
Figure FDA0002221018360000058
用于衡量生成字符和真实字符在内容原型编码器Encp、风格参考编码器Encr所提取最终层特征间的误差,其中:
Figure FDA0002221018360000059
Figure FDA00022210183600000510
步骤2-6、每一次迭代过程使用交替优化的策略,在每一个迭代过程中,首先根据最小化LG来优化网络G(字符生成模型),此后,根据最小化LD来优化网络D,每个迭代过程使用Adams优化方法交替地对G和D网络进行参数更新。
CN201910933634.5A 2019-09-29 2019-09-29 基于少量样本的内含多种归一化处理的风格字符生成方法 Pending CN111753493A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910933634.5A CN111753493A (zh) 2019-09-29 2019-09-29 基于少量样本的内含多种归一化处理的风格字符生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910933634.5A CN111753493A (zh) 2019-09-29 2019-09-29 基于少量样本的内含多种归一化处理的风格字符生成方法

Publications (1)

Publication Number Publication Date
CN111753493A true CN111753493A (zh) 2020-10-09

Family

ID=72672858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910933634.5A Pending CN111753493A (zh) 2019-09-29 2019-09-29 基于少量样本的内含多种归一化处理的风格字符生成方法

Country Status (1)

Country Link
CN (1) CN111753493A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112364838A (zh) * 2020-12-09 2021-02-12 佛山市南海区广工大数控装备协同创新研究院 一种利用合成的联机文本图像改进手写ocr性能的方法
CN112785493A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN112861806A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置
CN113140017A (zh) * 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113313625A (zh) * 2021-05-13 2021-08-27 华南理工大学 水墨画艺术风格转换方法、系统、计算机设备及存储介质
CN113792851A (zh) * 2021-09-09 2021-12-14 北京百度网讯科技有限公司 字体生成模型训练方法、字库建立方法、装置及设备
CN113807430A (zh) * 2021-09-15 2021-12-17 网易(杭州)网络有限公司 模型训练的方法、装置、计算机设备及存储介质
CN114818605A (zh) * 2022-04-28 2022-07-29 杭州网易云音乐科技有限公司 字体生成和文本展示方法、装置、介质和计算设备
CN114998895A (zh) * 2021-03-24 2022-09-02 华东师范大学 一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392973A (zh) * 2017-06-06 2017-11-24 中国科学院自动化研究所 像素级手写体汉字自动生成方法、存储设备、处理装置
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN109190722A (zh) * 2018-08-06 2019-01-11 大连民族大学 基于满文字符图片的字体风格迁移变换方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392973A (zh) * 2017-06-06 2017-11-24 中国科学院自动化研究所 像素级手写体汉字自动生成方法、存储设备、处理装置
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN109190722A (zh) * 2018-08-06 2019-01-11 大连民族大学 基于满文字符图片的字体风格迁移变换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAOCHUAN JIANG ET AL.: "W-Net: One-Shot Arbitrary-Style Chinese Character Generation with Deep Neural Networks", ICONIP 2018 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215017B (zh) * 2020-10-22 2022-04-29 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112364838A (zh) * 2020-12-09 2021-02-12 佛山市南海区广工大数控装备协同创新研究院 一种利用合成的联机文本图像改进手写ocr性能的方法
CN112785493A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN112785493B (zh) * 2021-01-22 2024-02-09 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN112861806A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置
CN112861806B (zh) * 2021-03-17 2023-08-22 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置
CN114998895A (zh) * 2021-03-24 2022-09-02 华东师范大学 一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置
CN113140017A (zh) * 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113140017B (zh) * 2021-04-30 2023-09-15 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113313625A (zh) * 2021-05-13 2021-08-27 华南理工大学 水墨画艺术风格转换方法、系统、计算机设备及存储介质
CN113792851B (zh) * 2021-09-09 2023-07-25 北京百度网讯科技有限公司 字体生成模型训练方法、字库建立方法、装置及设备
CN113792851A (zh) * 2021-09-09 2021-12-14 北京百度网讯科技有限公司 字体生成模型训练方法、字库建立方法、装置及设备
CN113807430A (zh) * 2021-09-15 2021-12-17 网易(杭州)网络有限公司 模型训练的方法、装置、计算机设备及存储介质
CN113807430B (zh) * 2021-09-15 2023-08-08 网易(杭州)网络有限公司 模型训练的方法、装置、计算机设备及存储介质
CN114818605A (zh) * 2022-04-28 2022-07-29 杭州网易云音乐科技有限公司 字体生成和文本展示方法、装置、介质和计算设备

Similar Documents

Publication Publication Date Title
CN111753493A (zh) 基于少量样本的内含多种归一化处理的风格字符生成方法
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
CN110503598B (zh) 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN109165376B (zh) 基于少量样本的风格字符生成方法
CN107577651B (zh) 基于对抗网络的汉字字体迁移系统
CN110570346B (zh) 一种基于循环生成对抗网络对书法进行风格迁移的方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN110570481A (zh) 基于风格迁移的书法字库自动修复方法及系统
CN112163401B (zh) 基于压缩与激励的gan网络的汉字字体生成方法
CN113393370A (zh) 中国书法文字图像风格迁移的方法、系统、智能终端
CN112000772A (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN112487193B (zh) 一种基于自编码器的零样本图片分类方法
CN112766079A (zh) 一种基于内容风格分离的无监督图像到图像翻译方法
CN113421318B (zh) 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN111125356A (zh) 一种文本分类方法及系统
CN110705459A (zh) 数理化公式自动识别方法及装置、模型训练方法及装置
CN114006870A (zh) 一种基于自监督卷积子空间聚类网络的网络流量识别方法
CN113836319A (zh) 融合实体邻居的知识补全方法及系统
CN113408418A (zh) 一种书法字体与文字内容同步识别方法及系统
Martins et al. Evotype: from shapes to glyphs
CN111161266A (zh) 一种基于矢量量化的变分自编码机的多风格字体生成方法
CN114187966A (zh) 一种基于生成对抗网络的单细胞rna序列缺失值填补方法
CN114281966A (zh) 问题模板生成方法、问答方法、装置与电子设备
CN112836511A (zh) 基于协同关系的知识图谱上下文嵌入方法
Ban Combining big data for college students’ network ideological and political innovation education

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination