CN114330237A - 一种基于嵌套编-解码网络的中文字体生成方法及系统 - Google Patents

一种基于嵌套编-解码网络的中文字体生成方法及系统 Download PDF

Info

Publication number
CN114330237A
CN114330237A CN202111664197.5A CN202111664197A CN114330237A CN 114330237 A CN114330237 A CN 114330237A CN 202111664197 A CN202111664197 A CN 202111664197A CN 114330237 A CN114330237 A CN 114330237A
Authority
CN
China
Prior art keywords
font
nested
decoding
coding
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111664197.5A
Other languages
English (en)
Inventor
李艳春
范龙飞
李哲涛
裴廷睿
龙赛琴
胡凌志
李泽群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202111664197.5A priority Critical patent/CN114330237A/zh
Publication of CN114330237A publication Critical patent/CN114330237A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供一种基于嵌套编‑解码网络的中文字体生成方法及系统,属于深度学习技术领域,中文字体生成方法包括:获取训练样本集;训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号;目标字体样本文件中包括部分目标字符;源字体样本文件中包括与目标字体样本文件中的目标字符对应的源字符;根据训练样本集,对嵌套编‑解码网络进行训练,得到字体生成模型;基于字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件。简化了字体生成的过程,实现印刷体之间及印刷体与手写字体的自动转换,并解决汉字笔锋细节生成的问题。

Description

一种基于嵌套编-解码网络的中文字体生成方法及系统
技术领域
本发明涉及深度学习技术领域,特别是涉及一种基于嵌套编-解码网络的中文字体生成方法及系统。
背景技术
众所周知,中文汉字有逾70000个之多,常用汉字有三千多个。设计者设计一款字体需要设计出该字体下的每个汉字,设计一款书法家字体也需要该书法家写出几乎所有常用汉字。因此,汉字字体设计是一项非常耗时繁重的任务,探索更为高效的设计方法:即如何只需人工设计某一字体下的部分汉字,而自动生成该字体下剩余的汉字,具有很大的实用意义。
近年来,以深度神经网络为最主要特点的深度学习(Deep Learning)在很多领域得到广泛应用,极大地推动了如图像识别、物体检测、视频预测、自然语言处理等领域的发展。不同于英语只有26个英文字母,中文汉字仅常用字就有三千多个,且有的汉字笔画繁多,结构复杂;汉字字体也种类多样,如宋体、楷体、仿宋、黑体……包括各种著名书法家或者普通人的手写字体。所以,在汉字字体迁移这一领域,利用深度学习进行汉字字体迁移的研究相对较少。
目前已有的相关研究往往采用基于汉字笔画分解重组的方法。一类方法是:源字体和真实目标字体下的汉字被层次分解成偏旁部首、笔画等各个部件,模型通过训练“记住”每个偏旁部首、笔画在目标字体下的形状,在模型的测试阶段,源字体同样被分解成各个部件,然后给每个部件匹配最佳的目标字体下的部件,最后进行组合形成生成目标字体。另一类方法利用深度神经网络生成与目标字体相近的偏旁部首或者笔画。
上述两种基于汉字分解的字体迁移方法都弊端在于该方法极大地依赖分解结果的好坏。对于笔画繁多、结构复杂的汉字,很难对其进行合适的分解,而对于笔画少的汉字,这样的分解又没有必要,因此这些都直接影响后续生成目标字体的结果。其次,基于汉字分解的方法前期预处理非常耗时间,且分解过程需要较多的先验知识。
发明内容
本发明的目的是提供一种基于嵌套编-解码网络的中文字体生成方法及系统,可简化字体生成过程,实现印刷体之间及印刷体与手写字体的自动转换,并解决汉字笔锋细节生成的问题。
为实现上述目的,本发明提供了如下方案:
一种基于嵌套编-解码网络的中文字体生成方法,所述基于嵌套编-解码网络的中文字体生成方法包括:
获取训练样本集;所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号;所述目标字体样本文件中包括部分目标字符;所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符;
根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型;
基于所述字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件。
可选地,所述嵌套编-解码网络包括汉字迁移模块及判别器模块;
所述根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型,具体包括:
根据所述源字体样本文件生成源字体图像域;根据所述目标字体样本文件生成目标字体图像域;
将所述源字体图像域转换为源二值文字图像;将所述目标字体图像域转换为目标二值文字图像;
根据所述目标字体编号及预先设定的查找表,确定目标字体类别数据;所述查找表为二维表,第一维为字体编号,第二维为字体类别数据;所述字体类别数据为预先设计的字体特征;
采用所述汉字迁移模块对所述源二值文字图像及所述目标字体类别数据进行特征融合,得到特征融合图像;
采用所述判别器模块判别所述特征融合图像的真实性及字体类别的准确性;
根据所述目标二值文字图像、所述源二值文字图像、所述特征融合图像及所述特征融合图像的真实性及准确性,确定所述汉字迁移模块的损失函数;
根据所述特征融合图像的真实性及字体类别的准确性,确定所述判别器模块的损失函数;
根据汉字迁移模块的损失函数对所述汉字迁移模块进行迭代训练,根据判别器模块的损失函数对所述判别器模块进行迭代训练,直至所述汉字迁移模块及所述判别器模块的损失函数均收敛,以得到最优的嵌套编-解码网络,最优的嵌套编-解码网络为字体生成模型。
为实现上述目的,本发明还提供了如下方案:
一种基于嵌套编-解码网络的中文字体生成系统,所述基于嵌套编-解码网络的中文字体生成系统包括:
样本获取单元,用于获取训练样本集;所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号;所述目标字体样本文件中包括部分目标字符;所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符;
训练单元,与所述样本获取单元连接,用于根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型;
字体生成单元,与所述训练单元连接,用于基于所述字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件。
根据本发明提供的具体实施例,本发明公开了以下技术效果:通过构建嵌套编-解码网络,采用部分目标字符及对应的源字符对嵌套编-解码网络进行训练,得到字体生成模型,再基于字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件,将每个汉字视作一张图片来处理,不依赖于前期的预处理和后期的笔画重组,是一种端到端的汉字字体迁移方法,极大地简化了字体生成过程且增强了生成效果,实现印刷体之间及印刷体与手写字体的转换。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于嵌套编-解码网络的中文字体生成方法的流程图;
图2为嵌套编-解码网络的结构示意图;
图3为汉字迁移模块的结构示意图;
图4为嵌套编-解码网络的工作流程图;
图5为将宋体字迁移到目标字体的效果图;
图6为本发明基于嵌套编-解码网络的中文字体生成系统的模块结构图。
符号说明:
汉字迁移模块-1,编码器-11,类别字体嵌入模块-12,解码器-13,判别器模块-3,样本获取单元-4,训练单元-5,字体生成单元-6。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于嵌套编-解码网络的中文字体生成方法及系统,通过构建嵌套编-解码网络,采用部分目标字符及对应的源字符对嵌套编-解码网络进行训练,得到字体生成模型,再基于字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件,将每个汉字视作一张图片来处理,不依赖于前期的预处理和后期的笔画重组,是一种端到端的汉字字体迁移方法,极大地简化了字体生成过程且增强了生成效果,实现印刷体之间及印刷体与手写字体的转换。
本发明运用了一种新的嵌套编-解码网络结构,用于多层次特征提取和融合,更好的处理字体的清晰度和笔锋细节问题。引入了对抗学习的方法。对抗学习的方法可以使得模型学到与已给图片相同分布的伪图片,从而提高生成目标字体的逼真度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于嵌套编-解码网络的中文字体生成方法包括:
S1:获取训练样本集。所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号;所述目标字体样本文件中包括部分目标字符;所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符。在本实施例中,源字体样本文件FontR为宋体ttf文件。目标字体样本文件FontTl为目标印刷字体ttf或者otf文件。l表示对应的目标印刷字体编号,l∈[0,40)。具体地,目标字符的数量为N。
S2:根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型。
S3:基于所述字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件。
具体地,如图2所示,所述嵌套编-解码网络包括汉字迁移模块及判别器模块。
步骤S2具体包括:
S21:根据所述源字体样本文件生成源字体图像域。根据所述目标字体样本文件生成目标字体图像域。
S22:将所述源字体图像域R转换为源二值文字图像Ri;将所述目标字体图像域Tl转换为目标二值文字图像Tl。具体地,源二值文字图像Ri和目标二值文字图像Tl的图像像素均为256*256,i∈[0,N)。将对应的源二值文字图像Ri和目标二值文字图像Tl封装在一起,并生成训练集文件和测试集文件,文件大小比例为4:1。
S23:根据所述目标字体编号及预先设定的查找表,确定目标字体类别数据。具体地,所述查找表为二维表,第一维为字体编号,第二维为字体类别数据;所述字体类别数据为预先设计的字体特征。具体地,将目标字体编号l通过预先设定的查找表编码成维度为[1,128]的向量作为目标字体类别数据CE_l,通过广播机制和维度扩展将其维度转化为[16,16,128]。预先设定的查找表由不可训练的高斯噪声生成,维度为[40,128]。
S24:采用所述汉字迁移模块对所述源二值文字图像及所述目标字体类别数据进行特征融合,得到特征融合图像。
S25:采用所述判别器模块判别所述特征融合图像的真实性及字体类别的准确性。具体地,将特征融合图像Sfusei和源二值文字图像Ri输入判别器模块D。判别器模块D包括真实性判别器DB和准确性判别器DC。DB由1个卷积层和3个卷积、归一、LeakyRelu激活层构成,输出维度为:[16*16*512]。DC在DB的基础上在最后增加了一层全连接层层,输出维度为:[1]。在进入判别器模块前,对特征融合图像Sfusei和与之对应的源二值文字图像Ri在第2维度进行concentrate操作,得到第一判别数据,输入到判别器模块D中。首先通过真实性判别器DB,第一判别数据被映射成维度为[16*16*512]的映射数据DBi,用于判定特征融合图像Sfusei的真实性。其次准确性判别器DC生成第二判别数据DCi,维度为[128],用于判定生成的目标印刷字体种类的准确性。
S26:根据所述目标二值文字图像、所述源二值文字图像、所述特征融合图像及所述特征融合图像的真实性及准确性,确定所述汉字迁移模块的损失函数。
S27:根据所述特征融合图像的真实性及字体类别的准确性,确定所述判别器模块的损失函数。
S28:根据汉字迁移模块的损失函数对所述汉字迁移模块进行迭代训练,根据判别器模块的损失函数对所述判别器模块进行迭代训练,直至所述汉字迁移模块及所述判别器模块的损失函数均收敛,以得到最优的嵌套编-解码网络,最优的嵌套编-解码网络为字体生成模型。具体地,通过反向传播进行迭代优化。
进一步地,所述汉字迁移模块包括依次连接的编码器、类别字体嵌入模块以及解码器。
步骤S24:采用所述汉字迁移模块对所述源二值文字图像及所述目标字体类别数据进行特征融合,得到特征融合图像,具体包括:
S241:采用所述编码器对所述源二值文字图像进行编码,得到源字体特征。
S242:采用所述类别字体嵌入模块将所述源字体特征与所述目标字体类别数据进行合并,得到类别字体标识向量。
具体地,将源字体特征En6Output通过bilinear上采样层后与目标字体类别数据CE_l在第2维进行Concatenate操作得到类别字体标识向量EmbeddingOutput,维度为[16,16,640]。类别字体嵌入模块将源字体特征En6Output和目标字体编号l转化为带有类别字体标识的类别字体标识向量EmbeddingOutput;
在通过解码器之前将不可训练的高斯噪声作为字体类别嵌入连接到源字体特征En6Output中,解决单个字符出现多种字体形式的问题。一方面步骤编码器部分仍能将相同的字符映射到相同的向量;另一方面,解码器也将同时使用字符和类别字体嵌入来生成目标数据。
S243:采用所述解码器对所述类别字体标识向量进行解码,得到特征融合图像。
更进一步地,所述编码器包括依次连接的第一嵌套编码层En1、第二嵌套编码层En2、第三嵌套编码层En3、第四嵌套编码层En4、第五嵌套编码层En5及第六嵌套编码层En6。
如图3所示,步骤S241具体包括:
采用第一嵌套编码层En1将所述源二值文字图像转换为第一编码特征En1Output。
采用第二嵌套编码层En2将所述第一编码特征En1Output转换为第二编码特征En2Output。
采用第三嵌套编码层En3将所述第二编码特征转换En2Output为第三编码特征En3Output。
采用第四嵌套编码层En4将所述第三编码特征En3Output转换为第四编码特征En4Output。
采用第五嵌套编码层En5将所述第四编码特征En4Output转换为第五编码特征En5Output。
采用第六嵌套编码层En6将所述第五编码特征En5Output转换为源字体特征En6Output。
具体地,所述第一嵌套编码层、所述第二嵌套编码层、所述第三嵌套编码层、所述第四嵌套编码层、所述第五嵌套编码层、所述第六嵌套编码层均包括卷积-批量标准化-线性整流函数CBR子模块、1/2下采样DownCBR子模块、M倍扩大M*DilationCBR子模块及2UpCBR子模块。
其中,CBR子模块包括依次连接的卷积核尺寸为3,填充为1,卷积核之间间距为1的第一二维卷积层、归一化处理层及RELU激活层。
1/2DownCBR子模块包括依次连接的卷积核尺寸为2,步长为2的二维最大池化层及CBR子模块。
M*DilationCBR子模块包括依次连接的卷积核尺寸为3,填充为1,卷积核之间的间距为2的第二二维卷积层、归一化处理层及RELU激活层。
2UpCBR子模块包括依次连接的bilinear上采样层和CBR模块。
具体地,第一嵌套编码层En1将所述源二值文字图像转换为第一编码特征En1Output,具体包括:
将源二值文字图像Ri转换为维度为[256,256,1]的向量,第0维、第1维表示像素大小,第2维表示通道数。向量通过CBR模块得到En1_en1,维度为:[256,256,64];En1_en1通过CBR模块得到En1_en2,维度为:[256,256,32];En1_en2通过1/2DownCBR模块得到En1_en3,维度为:[128,128,32];En1_en3通过1/2DownCBR模块得到En1_en4,维度为:[64,64,32];En1_en4通过1/2DownCBR模块得到En1_en5,维度为:[32,32,32];En1_en5通过1/2DownCBR模块得到En1_en6,维度为:[16,16,32];En1_en6通过1/2DownCBR模块得到En1_en7,维度为:[8,8,32];En1_en7通过2*DilationCBR模块得到En1_en8,维度为:[8,8,32]。En1_en7与En1_en8在第2维进行Concatenate连接(将新向量拼接到原来的向量之后,对应着维数增加)操作并通过CBR模块得到En1_de6,维度为:[8,8,32];En1_en6与En1_de6在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de5,维度为:[16,16,32];En1_en5与En1_de5在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de4,维度为:[32,32,32];En1_en4与En1_de4在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de3,维度为:[64,64,32];En1_en3与En1_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de2,维度为:[128,128,32];En1_en2与En1_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En1_de1,维度为:[256,256,64];En1_en1与En1_de1做加法运算得到第一编码特征En1Output,维度为:[256,256,64]。
第一嵌套编码层En1将输入的数据转化为和输出相同的通道数的中间映射En1_en1并进行了局部特征提取;采用定义参数为7的对称式编解码结构--7表示进行层级采样的次数,将中间映射En1_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对En1_en1与En1_de1做加法运算进行求和融合局部特征和多尺度特征,得到第一编码特征En1Output。
所述第二嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似,也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。
第二嵌套编码层En2将所述第一编码特征En1Output转换为第二编码特征En2Output,具体包括:第一编码特征En1Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[128,128,64]的数据En2Input。En2Input输入到第二嵌套编码层En2中:En2Input通过CBR模块得到En2_en1,维度为:[128,128,128];En2_en1通过CBR模块得到En2_en2,维度为:[128,128,32];En2_en2通过1/2DownCBR模块得到En2_en3,维度为:[64,64,32];En2_en3通过1/2DownCBR模块得到En2_en4,维度为:[32,32,32];En2_en4通过1/2DownCBR模块得到En2_en5,维度为:[16,16,32];En2_en5通过1/2DownCBR模块得到En2_en6,维度为:[8,8,32];En2_en6通过2*DilationCBR模块得到En2_en7,维度为:[8,8,32];En2_en6与En2_en7在第2维进行Concatenate操作并通过CBR模块得到En2_de5,维度为:[8,8,32];En2_en5与En2_de5在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de4,维度为:[16,16,32];En2_en4与En2_de4在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de3,维度为:[32,32,32];En2_en3与En2_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de2,维度为:[64,64,32];En2_en2与En2_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de1,维度为:[128,128,128];En2_en1与En2_de1做加法运算得到第二编码特征En2Output,维度为:[128,128,128]。
第二嵌套编码层En2将输入的数据En2Input转化为和输出相同的通道数的中间映射En2_en1并进行了局部特征提取。采用定义参数为6的对称式编解码结构,将中间映射En2_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对En2_en1与En2_de1做加法运算进行求和融合局部特征和多尺度特征,得到第二编码特征En2Output。
所述第三嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似,也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。
第三嵌套编码层En3将所述第二编码特征转换En2Output为第三编码特征En3Output,具体包括:
将第二编码特征En2Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[64,64,128]的数据En3Input。En3Input输入到第三嵌套编码层En3中——En3Input通过CBR模块得到En3_en1,维度为:[64,64,256];En3_en1通过CBR模块的到En3_en2,维度为:[64,64,64];En3_en2通过1/2DownCBR模块得到En3_en3,维度为:[32,32,64];En3_en3通过1/2DownCBR模块得到En3_en4,维度为:[16,16,64];En3_en4通过1/2DownCBR模块得到En3_en5,维度为:[8,8,64];En3_en5通过2*DilationCBR模块得到En3_en6,维度为:[8,8,64];En3_en5与En3_en6在第2维进行Concatenate操作并通过CBR模块得到En3_de4,维度为:[8,8,64];En3_en4与En3_de4在第2维进行Concatenate操作并通过2UpCBR模块得到En3_de3,维度为:[16,16,64];En3_en3与En3_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En2_de2,维度为:[32,32,64];En3_en2与En3_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En3_de1,维度为:[64,64,256];En3_en1与En3_de1做加法运算得到第三编码特征En3Output,维度为:[64,64,256]。
第三嵌套编码层En3将输入的数据En3Input转化为和输出相同的通道数的中间映射En3_en1并进行了局部特征提取。采用定义参数为5的对称式编解码结构,将中间映射En3_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对En3_en1与En3_de1做加法运算进行求和融合局部特征和多尺度特征,得到第三编码特征En3Output。
所述第四嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似,也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。
第四嵌套编码层En4将所述第三编码特征En3Output转换为第四编码特征En4Output,具体包括:
将第三编码特征En3Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[32,32,256]的数据En4Input。En4Input输入到第四嵌套编码层En4中——En4Input通过CBR模块得到En4_en1,维度为:[32,32,512];En4_en1通过CBR模块的到En4_en2,维度为:[32,32,128];En4_en2通过1/2DownCBR模块得到En4_en3,维度为:[16,16,128];En4_en3通过1/2DownCBR模块得到En4_en4,维度为:[8,8,128];En4_en4通过2*DilationCBR模块得到En4_en5,维度为:[8,8,128];En4_en4与En4_en5在第2维进行Concatenate操作并通过CBR模块得到En4_de3,维度为:[8,8,128];En4_en3与En4_de3在第2维进行Concatenate操作并通过2UpCBR模块得到En4_de2,维度为:[16,16,128];En4_en2与En4_de2在第2维进行Concatenate操作并通过2UpCBR模块得到En4_de1,维度为:[32,32,512];En4_en1与En4_de1做加法运算得到第四编码特征En4Output,维度为:[32,32,512]。
第四嵌套编码层En4将输入的数据En4Input转化为和输出相同的通道数的中间映射En4_en1并进行了局部特征提取;采用定义参数为4的对称式编解码结构,将中间映射En4_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对En4_en1与En4_de1做加法运算进行求和融合局部特征和多尺度特征,得到第四编码特征En4Output。
所述第五嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似,也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。
第五嵌套编码层En5将所述第四编码特征En4Output转换为第五编码特征En5Output,具体包括:
将第四编码特征En4Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[16,16,512]的数据En5Input。En5Input输入到第五嵌套编码层En5中——En5Input通过CBR模块得到En5_en1,维度为:[16,16,512];En5_en1通过CBR模块的到En5_en2,维度为:[16,16,256];En5_en2通过2*DilationCBR模块得到En5_en3,维度为:[16,16,256];En5_en3通过4*DilationCBR模块得到En5_en4,维度为:[16,16,256];En5_en4通过8*DilationCBR模块得到En5_en5,维度为:[16,16,256];En5_en4与En5_en5在第2维进行Concatenate操作并通过4*DilationCBR模块得到En5_de3,维度为:[16,16,256];En5_en3与En5_de3在第2维进行Concatenate操作并通过2*DilationCBR模块得到En5_de2,维度为:[16,16,256];En5_en2与En5_de2在第2维进行Concatenate操作并通过CBR模块得到En5_de1,维度为:[16,16,512];En5_en1与En5_de1做加法运算得到第五编码特征En5Output,维度为:[16,16,512]。
第五嵌套编码层En5将输入的数据En5Input转化为和输出相同的通道数的中间映射En5_en1并进行了局部特征提取。采用高度为4的对称式编解码结构,将中间映射En5_en1作为输入。数据En5_en1的第0维度和第1维度表示数据的分辨率,因为数据的分辨率相对较低,进一步降低分辨率进行采样会导致有用上下文的丢失,所以使用扩展卷积替换池化和上采样操作,使得En5模块内部的数据具有和输入数据En5Input相同的分辨率,提取和学习多尺度的语义信息。
所述第六嵌套编码层En2的结构与所述第一嵌套编码层En1的结构的结构类似,也包括CBR子模块、1/2DownCBR子模块、M*DilationCBR子模块、以及2UpCBR子模块。
第六嵌套编码层En6将所述第五编码特征En6Output转换为源字体特征En6Output,具体包括:
将第五编码特征En5Output通过由卷积核尺寸为2、步长为2构成的二维最大池化层得到维度为[8,8,512]的数据En6Input。En6Input输入到第六层嵌套编码层En6中——En6Input通过CBR模块得到En6_en1,维度为:[8,8,512];En6_en1通过CBR模块的到En6_en2,维度为:[8,8,256];En6_en2通过2*DilationCBR模块得到En6_en3,维度为:[8,8,256];En6_en3通过4*DilationCBR模块得到En6_en4,维度为:[8,8,256];En6_en4通过8*DilationCBR模块得到En6_en5,维度为:[8,8,256];En6_en4与En6_en5在第2维进行Concatenate操作并通过4*DilationCBR模块得到En6_de3,维度为:[8,8,256];En5_en3与En6_de3在第2维进行Concatenate操作并通过2*DilationCBR模块得到En6_de2,维度为:[8,8,256];En6_en2与En6_de2在第2维进行Concatenate操作并通过CBR模块得到En6_de1,维度为:[8,8,512];En6_en1与En6_de1做加法运算得到源字体特征En6Output,维度为:[8,8,512]。
第六嵌套编码层En6将输入的数据En6Input转化为和输出相同的通道数的中间映射En6_en1并进行了局部特征提取;采用高度为4的对称式编解码结构,将中间映射En6_en1作为输入。数据En6_en1的第0维度和第1维度表示数据的分辨率,因为数据的分辨率相对较低,进一步降低分辨率进行采样会导致有用上下文的丢失,所以我们使用扩展卷积替换池化和上采样操作,使得En6模块内部的数据具有和输入数据En6Input相同的分辨率,提取和学习多尺度的语义信息。
进一步地,所述解码器包括依次连接的第五嵌套解码层、第四嵌套解码层、第三嵌套解码层、第二嵌套解码层及第一嵌套解码层;所述第一嵌套解码层还与所述第一嵌套编码层连接;所述第二嵌套解码层还与所述第二嵌套编码层连接;所述第三嵌套解码层还与所述第三嵌套编码层连接;所述第四嵌套解码层还与所述第四嵌套编码层连接;所述第五嵌套解码层还与所述类别字体嵌入模块连接。
步骤S243:采用所述解码器对所述类别字体标识向量进行解码,得到特征融合图像,具体包括:
采用所述第五嵌套解码层,将所述类别字体标识向量及所述第五编码特征连接,并转换为第五解码特征。第五嵌套解码层De5的结构与第五嵌套编码层En5的结构一致。
具体地,将第五编码特征En5Output和类别字体标识向量EmbeddingOutput,在第2维进行Concatenate操作通过bilinear上采样层得到维度为[16,16,1152]的数据De5Input。De5Input输入到第五嵌套解码层De5中得到第五解码特征De5Output,维度为:[16,16,512]。第五嵌套解码层De5将输入的数据De5Input转化为和输出相同的通道数的中间映射De5_en1并进行了局部特征提取;采用高度为4的对称式编解码结构,将中间映射De5_en1作为输入。数据De5_en1的第0维度和第1维度表示数据的分辨率,因为数据的分辨率相对较低,进一步降低分辨率进行采样会导致有用上下文的丢失,所以使用扩展卷积替换池化和上采样操作,使得第五嵌套解码层De5内部的数据具有和输入数据De5Input相同的分辨率,提取和学习多尺度的语义信息。
采用所述第四嵌套解码层,将所述第五解码特征及所述第四编码特征连接,并转换为第四解码特征。第四嵌套解码层De4的结构和第四嵌套编码层En4的结构一致。
具体地,将第四编码特征En4Output和第五解码特征De5Output,在第2维进行Concatenate操作通过bilinear上采样层得到维度为[32,32,1024]的数据De4Input。De4Input输入到第四嵌套解码层De4中得到第四解码特征De4Output,维度为:[32,32,256]。第四嵌套解码层De4将输入的数据De4Input转化为和输出相同的通道数的中间映射De4_en1并进行了局部特征提取;采用定义参数为4的对称式编解码结构,将中间映射De4_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对De4_en1与De4_de1做加法运算进行求和融合局部特征和多尺度特征,得到第四解码特征De4Output。
采用所述第三嵌套解码层,将所述第四解码特征及所述第三编码特征连接,并转换为第三解码特征。第三嵌套解码层De3的结构和第三嵌套编码层En3的结构一致。
具体地,将第三编码特征En3Output和第四解码特征De4Output,在第2维进行Concatenate操作通过bilinear上采样层得到维度为[64,64,512]的数据De3Input。De3Input输入到第三嵌套解码层De3中得到第三解码特征De3Output,维度为:[64,64,128]。第三嵌套解码层De3将输入的数据De3Input转化为和输出相同的通道数的中间映射De3_en1并进行了局部特征提取;采用定义参数为5的对称式编解码结构,将中间映射De3_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对De3_en1与De3_de1做加法运算进行求和融合局部特征和多尺度特征,得到第三解码特征De3Output。
采用所述第二嵌套解码层,将所述第三解码特征及所述第二编码特征连接,并转换为第二解码特征。第二嵌套解码层De2的结构和第二嵌套编码层En2的结构一致。
具体地,将第二编码特征En2Output和第三解码特征De3Output,在第2维进行Concatenate操作通过bilinear上采样层得到维度为[128,128,256]的输入数据De2Input。De2Input输入到第二嵌套解码层De2中得到第二解码特征De2Output,维度为:[128,128,64]。第二嵌套解码层De2将输入的数据De2Input转化为和输出相同的通道数的中间映射De2_en1并进行了局部特征提取;采用定义参数为6的对称式编解码结构,将中间映射De2_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对De2_en1与De2_de1做加法运算进行求和融合局部特征和多尺度特征,得到第二解码特征De2Output。
采用所述第一嵌套解码层,将所述第二解码特征及所述第一编码特征连接,并转换为第一解码特征。第一嵌套解码层De1的结构和第一嵌套编码层En1的结构一致。
具体地,将第一编码特征En1Output和第二解码特征De2Output,在第2维进行Concatenate操作通过bilinear上采样层得到维度为[256,256,128]的输入数据De1Input。De1Input输入到第一嵌套解码De1中得到第一解码特征De1Output,维度为:[256,256,64]。第一嵌套解码层De1将输入的数据De1Input转化为和输出相同的通道数的中间映射De1_en1并进行了局部特征提取;采用定义参数为7的对称式编解码结构,将中间映射De1_en1作为输入,在逐步下采样的过程中提取多尺度特征,通过渐进式上采样、连接和卷积操作编码为高分辨率特征数据,这一过程减轻了大尺度直接上采样造成的精细细节损失从而实现在编解码结构内部多层次的特征提取,也使得网络变深,获取更大的感受野和更丰富的局部及全局特征,学习提取和编码多尺度的语义信息;通过对De1_en1与De1_de1做加法运算进行求和融合局部特征和多尺度特征,得到第一解码特征De1Output。
根据所述源字体特征得到第六局部特征图。
根据所述第五解码特征得到第五局部特征图。
根据所述第四解码特征得到第四局部特征图。
根据所述第三解码特征得到第三局部特征图。
根据所述第二解码特征得到第二局部特征图。
根据所述第一解码特征得到第一局部特征图。
具体地,将源字体特征En6Output、第五解码特征De5Output、第四解码特征De4Output、第三解码特征De3Output、第二解码特征De2Output、第一解码特征De1Output均通过卷积核为3*3的二维卷积层和Sigmoid函数得到对应的局部特征图:第六局部特征图
Figure BDA0003450590430000181
维度为:[8,8,1],第五局部特征图
Figure BDA0003450590430000182
维度为:[16,16,1],第四局部特征图
Figure BDA0003450590430000183
维度为:[32,32,1],第三局部特征图
Figure BDA0003450590430000184
维度为:[64,64,1],第二局部特征图
Figure BDA0003450590430000185
维度为:[128,128,1],第一局部特征图
Figure BDA0003450590430000186
维度为:[256,256,1]。
将所述第六局部特征图、第五局部特征图、第四局部特征图、第三局部特征图、第二局部特征图及第一局部特征图融合,得到特征融合图像。
具体地,将所述第六局部特征图、第五局部特征图、第四局部特征图、第三局部特征图、第二局部特征图及第一局部特征图分别通过bilinear上采样层至维度为:[256,256,1]并对它们的第2维度进行Concatenate操作后,通过1*1二维卷积层和Sigmoid函数,生成特征融合图像Sfusei,维度为[256,256,1]。如图4所示为本发明嵌套编-解码网络的工作流程图。
本发明的嵌套编-解码网络结构中每一个嵌套结构可以更加有效的提取输入数据的多尺度特征和聚集阶段的多层次特征,更好的处理字体的清晰度和笔锋细节问题。
本发明引入了对抗学习的方法,使得模型学到与已给图片相同分布的伪图片,从而提高生成目标字体的逼真度。
进一步地,汉字迁移模块损失函数Gloss由四个损失函数构成。
(1)总特征图损失函数
Figure BDA00034505904300001810
在训练时,将源二值文字图像Ri和目标二值文字图像Tli,两两配对;由第i个源二值文字图像Ri经所述汉字迁移模块映射而成的局部特征图
Figure BDA0003450590430000187
上采样至目标字体图像大小后,与目标二值文字图像Tli构成局部特征图损失函数
Figure BDA0003450590430000188
Figure BDA0003450590430000189
其中,
Figure BDA0003450590430000191
为局部特征图损失函数,上标m表示第几个局部特征图,(r,c)是像素坐标,(H,W)是上采样至目标字体图像大小后的
Figure BDA0003450590430000192
图像的高和宽,
Figure BDA0003450590430000193
表示目标二值文字图像Tli像素点的特征值,
Figure BDA0003450590430000194
表示源二值文字图像Ri像素点的特征值,总特征图损失函数为
Figure BDA0003450590430000195
Figure BDA0003450590430000196
其中
Figure BDA0003450590430000197
是总特征图损失函数,
Figure BDA0003450590430000198
为局部特征图损失函数;
Figure BDA0003450590430000199
是Sfusei融合特征图的损失函数,公式与
Figure BDA00034505904300001910
一致;M=6。
Figure BDA00034505904300001911
总特征图损失函数的作用是计算局部特征图上采样以及特征图融合时造成的损失,并用于反向传播减少损失。总特征图损失函数
Figure BDA00034505904300001912
在训练过程中始于最小化整个损失,使得输出的特征融合图像对于文字的笔锋处理的更好。
(2)最小绝对值偏差损失函数L1。将目标二值文字图像Tli与特征融合图像Sfuse输入到L1中:
Figure BDA00034505904300001913
其中,(r,c)为特征融合图像的像素坐标,(H,W)为特征融合图像的高和宽,Tli为目标二值文字图像,
Figure BDA00034505904300001914
为目标二值文字图像Tli的像素点的特征值,Sfusei为特征融合图像,
Figure BDA00034505904300001915
为特征融合图像Sfusei的像素点的特征值.最小绝对值偏差损失函数L1用于判断特征融合图像Sfusei与目标二值文字图像Tli的绝对值偏差偏差。
(3)类别损失函数Lcat。在训练时,将目标字体编号l与步骤S25获得的第二判别数据DCi输入到Lcat中:
Lcat为已知的CrossEntropyLoss函数,DCi为第一个参数,l为第二个参数。
类别损失函数Lcat用于计算特征融合图像Sfusei的字体编号与目标字体编号l的接近程度,越小越接近。
(4)编码恒定损失函数LEnCo:在训练时,将源二值文字图像Ri与特征融合图像Sfusei配对,通过汉字编码模块E构成编码恒定损失函数LEnCo
Figure BDA0003450590430000201
其中,E为汉字编码网络,E(Ri)为由源二值文字图像Ri构成的编码;E(Sfusei)为特征融合图像Sfusei的编码;Sfusei为特征融合图像;N为目标字符的数量。编码恒定损失函数LEnCo用于度量输入的两种数据之间的差异。
(5)判别损失函数LDF:在训练时,将步骤S25获得的映射数据DBi输入到LDF中:
LDF为已知的BCEWithLogitsLoss函数,DBi为第一个参数,与DBi维度相同的内部数值全是1的向量作为第二个参数。判别损失函数LDF用来控制判别器判别失误的能力,值越小能力越强,从而提高生成器的生成能力。
因此,汉字迁移模块的损失函数Gloss
Figure BDA0003450590430000211
其中超参数:Netpen为10、L1pen为100、Catpen为1、EnCopen为15,
Figure BDA0003450590430000212
为总特征图损失函数,L1为最小绝对值偏差损失函数、Lcat为类别损失函数,LEnCo为编码恒定损失函数,LDF为判别损失函数。
将源二值文字图像Ri与目标二值文字图像Tli转化为向量后在第2维度进行concentrate操作,得到真实数据real_ab。源二值文字图像Ri与特征融合图像Sfusei转化为向量后在第2维度进行concentrate操作,得到数据虚假数据fake_ab。将真实数据real_ab与虚假数据fake_ab分别输入判别器D,得到真实映射数据DBreal_ab和真实判别数据DCreal_ab、虚假映射数据DBfake_ab和虚假判别数据DCfake_ab。
判别器模块的损失函数Dloss由两类损失函数构成:
(1)判别损失函数LDF:在训练时,LDF由LDFreal和LDFfake构成。LDFreal为已知的BCEWithLogitsLoss函数,DBreal_ab为第一个参数,与DBreal_ab维度相同,内部数值全是1的向量作为第二个参数。LDFfake为已知的BCEWithLogitsLoss函数,DBfake_ab为第一个参数,与DBfake_ab维度相同,内部数值全是1的向量作为第二个参数。
LDF=LDFfake+LDFreal
判别损失函数LDF用于衡量判别器鉴别是否为目标字体图像能力的强弱,数值越小越强。
(2)类别损失函数Lcat:在训练时,Lcat由Lcatreal和Lcatfake构成。Lcatreal为已知的CrossEntropyLoss函数,DCreal_ab为第一个参数,与DCreal_ab维度相同,内部数值全是1的向量作为第二个参数。Lcatfake为已知的BCEWithLogitsLoss函数,DCfake_ab为第一个参数,与DCfake_ab维度相同,内部数值全是1的向量作为第二个参数。
Lcat=Catpen*Lcatfake+Lcatreal
其中超参数Catpen为1,类别损失函数Lcat用于衡量判别器鉴别是否为目标字体类别能力的强弱,数值越小越强。
因此,判别器模块的损失函数为:
Figure BDA0003450590430000221
通过判别器模块损失函数Dloss能够对生成的目标字体图像进行内容上的优化,使其内容更加明确;对生成的目标字体图像进行字体类别上的优化,使得其生成的图像和真实的目标字体图像相近,同时使解码层保留生成汉字的字体种类,收窄了可搜索的范围,因而加快了收敛速度。
在本实施例中,经过800个epoch训练后汉字迁移模块在测试集中表现良好,如图5所示,第一行为源字体,第二行为生成的目标打印字体,第三行为目标真实字体。本发明将每个汉字视作一张图片来处理,不依赖于前期的预处理和后期的笔画重组,是一种端到端的汉字字体迁移系统,极大地简化了字体生成过程、增强了生成效果。
如图6所示,本发明基于嵌套编-解码网络的中文字体生成系统包括:样本获取单元4、训练单元5和字体生成单元6。
其中,所述样本获取单元4用于获取训练样本集。所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号。所述目标字体样本文件中包括部分目标字符。所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符。
所述训练单元5与所述样本获取单元4连接,所述训练单元5用于根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型。
所述字体生成单元6与所述训练单元5连接,所述字体生成单元6用于基于所述字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件。
相对于现有技术,本发明基于嵌套编-解码网络的中文字体生成系统与上述基于嵌套编-解码网络的中文字体生成方法的有益效果相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述基于嵌套编-解码网络的中文字体生成方法包括:
获取训练样本集;所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号;所述目标字体样本文件中包括部分目标字符;所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符;
根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型;
基于所述字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件。
2.根据权利要求1所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述嵌套编-解码网络包括汉字迁移模块及判别器模块;
所述根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型,具体包括:
根据所述源字体样本文件生成源字体图像域;根据所述目标字体样本文件生成目标字体图像域;
将所述源字体图像域转换为源二值文字图像;将所述目标字体图像域转换为目标二值文字图像;
根据所述目标字体编号及预先设定的查找表,确定目标字体类别数据;所述查找表为二维表,第一维为字体编号,第二维为字体类别数据;所述字体类别数据为预先设计的字体特征;
采用所述汉字迁移模块对所述源二值文字图像及所述目标字体类别数据进行特征融合,得到特征融合图像;
采用所述判别器模块判别所述特征融合图像的真实性及字体类别的准确性;
根据所述目标二值文字图像、所述源二值文字图像、所述特征融合图像及所述特征融合图像的真实性及准确性,确定所述汉字迁移模块的损失函数;
根据所述特征融合图像的真实性及字体类别的准确性,确定所述判别器模块的损失函数;
根据汉字迁移模块的损失函数对所述汉字迁移模块进行迭代训练,根据判别器模块的损失函数对所述判别器模块进行迭代训练,直至所述汉字迁移模块及所述判别器模块的损失函数均收敛,以得到最优的嵌套编-解码网络,最优的嵌套编-解码网络为字体生成模型。
3.根据权利要求2所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述汉字迁移模块包括依次连接的编码器、类别字体嵌入模块以及解码器;
所述采用所述汉字迁移模块,对所述源二值文字图像及所述目标字体类别数据进行特征融合,得到特征融合图像,具体包括:
采用所述编码器对所述源二值文字图像进行编码,得到源字体特征;
采用所述类别字体嵌入模块将所述源字体特征与所述目标字体类别数据进行合并,得到类别字体标识向量;
采用所述解码器对所述类别字体标识向量进行解码,得到特征融合图像。
4.根据权利要求3所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述编码器包括依次连接的第一嵌套编码层、第二嵌套编码层、第三嵌套编码层、第四嵌套编码层、第五嵌套编码层及第六嵌套编码层;
所述采用所述编码器对所述源二值文字图像进行编码,得到源字体特征,具体包括:
采用第一嵌套编码层将所述源二值文字图像转换为第一编码特征;
采用第二嵌套编码层将所述第一编码特征转换为第二编码特征;
采用第三嵌套编码层将所述第二编码特征转换为第三编码特征;
采用第四嵌套编码层将所述第三编码特征转换为第四编码特征;
采用第五嵌套编码层将所述第四编码特征转换为第五编码特征;
采用第六嵌套编码层将所述第五编码特征转换为源字体特征。
5.根据权利要求4所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述解码器包括依次连接的第五嵌套解码层、第四嵌套解码层、第三嵌套解码层、第二嵌套解码层及第一嵌套解码层;所述第一嵌套解码层还与所述第一嵌套编码层连接;所述第二嵌套解码层还与所述第二嵌套编码层连接;所述第三嵌套解码层还与所述第三嵌套编码层连接;所述第四嵌套解码层还与所述第四嵌套编码层连接;所述第五嵌套解码层还与所述类别字体嵌入模块连接;
所述采用所述解码器对所述类别字体标识向量进行解码,得到特征融合图像,具体包括:
采用所述第五嵌套解码层,将所述类别字体标识向量及所述第五编码特征连接,并转换为第五解码特征;
采用所述第四嵌套解码层,将所述第五解码特征及所述第四编码特征连接,并转换为第四解码特征;
采用所述第三嵌套解码层,将所述第四解码特征及所述第三编码特征连接,并转换为第三解码特征;
采用所述第二嵌套解码层,将所述第三解码特征及所述第二编码特征连接,并转换为第二解码特征;
采用所述第一嵌套解码层,将所述第二解码特征及所述第一编码特征连接,并转换为第一解码特征;
根据所述源字体特征得到第六局部特征图;
根据所述第五解码特征得到第五局部特征图;
根据所述第四解码特征得到第四局部特征图;
根据所述第三解码特征得到第三局部特征图;
根据所述第二解码特征得到第二局部特征图;
根据所述第一解码特征得到第一局部特征图;
将所述第六局部特征图、第五局部特征图、第四局部特征图、第三局部特征图、第二局部特征图及第一局部特征图融合,得到特征融合图像。
6.根据权利要求2所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述根据所述目标二值文字图像、所述特征融合图像及所述特征融合图像的真实性及字体类别的准确性,确定所述汉字迁移模块的损失函数,具体包括:
根据所述目标二值文字图像及特征融合图像,确定总特征图损失函数;
根据所述目标二值文字图像及特征融合图像,确定最小绝对值偏差损失函数;
根据字体类别的准确性及所述目标字体编号,确定类别损失函数;
根据所述特征融合图像及所述源二值文字图像,确定编码恒定损失函数;
根据所述特征融合图像及所述源二值文字图像,确定判别损失函数;
根据所述总特征图损失函数、所述最小绝对值偏差损失函数、所述类别损失函数、所述编码恒定损失函数及所述判别损失函数,确定所述汉字迁移模块的损失函数。
7.根据权利要求6所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述汉字迁移模块的损失函数为:
Figure FDA0003450590420000041
其中,Gloss为汉字迁移模块的损失函数,
Figure FDA0003450590420000042
为总特征图损失函数,L1为最小绝对值偏差损失函数、Lcat为类别损失函数,LEnCo为编码恒定损失函数,LDF为判别损失函数,Netpen、L1pen、Catpen、EnCopen为超参数。
8.根据权利要求6所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述总特征图损失函数为:
Figure FDA0003450590420000043
其中,
Figure FDA0003450590420000044
为第i个源二值文字图像经汉字迁移模块映射成的第m局部特征图,
Figure FDA0003450590420000051
为特征融合图像的损失函数,M=6。
9.根据权利要求6所述的基于嵌套编-解码网络的中文字体生成方法,其特征在于,所述最小绝对值偏差损失函数为:
Figure FDA0003450590420000052
其中,(r,c)为特征融合图像的像素坐标,(H,W)为特征融合图像的高和宽,Tli为目标二值文字图像,
Figure FDA0003450590420000053
为目标二值文字图像Tli的像素点的特征值,Sfusei为特征融合图像,
Figure FDA0003450590420000054
为特征融合图像Sfusei的像素点的特征值。
10.一种基于嵌套编-解码网络的中文字体生成系统,其特征在于,所述基于嵌套编-解码网络的中文字体生成系统包括:
样本获取单元,用于获取训练样本集;所述训练样本集包括源字体样本文件、目标字体样本文件和目标字体编号;所述目标字体样本文件中包括部分目标字符;所述源字体样本文件中包括与所述目标字体样本文件中的目标字符对应的源字符;
训练单元,与所述样本获取单元连接,用于根据所述训练样本集,对嵌套编-解码网络进行训练,得到字体生成模型;
字体生成单元,与所述训练单元连接,用于基于所述字体生成模型,根据完整的源字体文件及目标字体编号,生成完整的目标字体文件。
CN202111664197.5A 2021-12-31 2021-12-31 一种基于嵌套编-解码网络的中文字体生成方法及系统 Pending CN114330237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111664197.5A CN114330237A (zh) 2021-12-31 2021-12-31 一种基于嵌套编-解码网络的中文字体生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111664197.5A CN114330237A (zh) 2021-12-31 2021-12-31 一种基于嵌套编-解码网络的中文字体生成方法及系统

Publications (1)

Publication Number Publication Date
CN114330237A true CN114330237A (zh) 2022-04-12

Family

ID=81020594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111664197.5A Pending CN114330237A (zh) 2021-12-31 2021-12-31 一种基于嵌套编-解码网络的中文字体生成方法及系统

Country Status (1)

Country Link
CN (1) CN114330237A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147850A (zh) * 2022-06-30 2022-10-04 北京百度网讯科技有限公司 文字生成模型的训练方法、文字生成方法及其装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147850A (zh) * 2022-06-30 2022-10-04 北京百度网讯科技有限公司 文字生成模型的训练方法、文字生成方法及其装置

Similar Documents

Publication Publication Date Title
CN107577651B (zh) 基于对抗网络的汉字字体迁移系统
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN109359297B (zh) 一种关系抽取方法及系统
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN109213975B (zh) 一种基于字符层级卷积变分自编码的推特文本表示方法
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN111598183A (zh) 一种多特征融合图像描述方法
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN107463928A (zh) 基于ocr和双向lstm的文字序列纠错算法、系统及其设备
CN116797868A (zh) 文本图像生成方法以及扩散生成模型训练方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
Gupta et al. CNN-LSTM hybrid real-time IoT-based cognitive approaches for ISLR with WebRTC: auditory impaired assistive technology
CN115457568A (zh) 一种基于生成对抗网络的历史文档图像降噪方法及系统
CN114330237A (zh) 一种基于嵌套编-解码网络的中文字体生成方法及系统
Xue et al. Lipformer: Learning to lipread unseen speakers based on visual-landmark transformers
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN110570484A (zh) 一种图像解耦表征下的文本指导图像上色方法
CN114022582A (zh) 一种文本生成图像方法
CN112634405A (zh) 一种面向众测任务发布的图文生成方法
CN113747168A (zh) 多媒体数据描述模型的训练方法和描述信息的生成方法
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination