CN114998895A - 一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置 - Google Patents
一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置 Download PDFInfo
- Publication number
- CN114998895A CN114998895A CN202110312881.0A CN202110312881A CN114998895A CN 114998895 A CN114998895 A CN 114998895A CN 202110312881 A CN202110312881 A CN 202110312881A CN 114998895 A CN114998895 A CN 114998895A
- Authority
- CN
- China
- Prior art keywords
- content
- decoding
- module
- feature
- deformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 60
- 238000010606 normalization Methods 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于生成式对抗网络与可形变特征传输的文字生成装置及方法,所述装置包括:生成网络,用于将文字图像的风格特征和内容特征分离后再重组形成解码特征,并通过形变特征传输模块根据部分解码特征与相应的内容特征得到形变内容特征,最后将得到的形变内容特征在特征解码模块与对应的解码特征进行级联后送入下一层神经网络,最后在特征解码模块的最后一层神经网络生成最终的文字图像;判别网络,用于对所述生成网络生成的文字图像与真实文字图像进行真假判断。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置。
背景技术
作为信息存储和传输的载体,文字在人们生活中占据着非常重要的地位。文字生成方法的研究和应用是一个非常有挑战性的任务,尤其是针对包含大量字符的文字系统如中文、韩文、日文等。并且,文字生成在字体库生成、历史笔迹模仿、光学字符识别任务的数据增强等领域发挥着重要的作用。
近来,随着神经网络的发展使自动文字生成为了可能。目前已经有一些方法进行文字生成的尝试并取得了较好的效果,例如P Upchurch,N Snavely,K Bala于2016年发表的“From A to Z:Supervised Transfer of Style and Content Using Deep NeuralNetwork Generators”使用了神经网络针对特定的文字系统生成了特定风格的整套字母库。Zi2zi与Rewrite是两个被广泛使用的项目,它们在上千成对字体的监督下通过学习两种不同风格的字体之间的特征映射来生成文字。在这之后,Zhang,Yexun,Cai,Wenbin,Zhang,Ya等人在2017年发表的“Separating style and content for generalized styletransfer”和Sun,Danyang,Ren,Tongzheng,Li,Chongxun等人2017年发表的“Learning towrite stylized chinese characters byreading ahandful ofexamples”设计了神经网络来分别提取内容和风格特征,并将其重组来生成新的文字。但上述方法生成的文字普遍存在模糊或缺少部件等问题,此外,也有一些方法尝试加入额外的标签来帮助生成高质量的文字图像,例如Junbum Cha,Sanghyuk Chun,Gayoung Lee等人2020年发表的“Few-shotcompositional font generation with dual memory”以及Yaoxiong Huang,MengchaoHe,Lianwen Jin等人2020年发表的“RD-GAN:few/zero-shot chinese character styletransferviaradical decomposition and rendering”使用了部件分解的方法来帮助字体生成,并且达到了每种风格只需要很少的数据集就可以对进行汉字生成,也有方法通过为一个字符的每个笔画部件的分配标签来进行文字生成。然而上述方法只能应用到特定的文字系统,并且一些标签如笔画标签需要由其他算法来提取估计,这些将会引入额外的影响;同时,这些方法针对每个笔画部件设置标签导致其无法处理复杂的连笔的情况。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置,以通过内容特征和风格特征分离然后再重组,生成高清晰度、并充分融入了字体风格参考图像的风格特征(如笔锋、连笔、粗细等)的文字合成图像,并通过设计形变特征传输模块将内容编码模块中内容特征经过形变后传输给特征解码模块,保证了特征解码模块能够输出笔画完整的文字图像。
为达上述及其它目的,本发明提出一种基于生成式对抗网络与可形变特征传输的文字生成装置,包括:
生成网络,用于将文字图像的风格特征和内容特征分离后再重组形成解码特征,并通过形变特征传输模块根据部分解码特征与相应的内容特征得到形变内容特征,最后将得到的形变内容特征在特征解码模块与对应的解码特征进行级联后送入下一层神经网络,最后在特征解码模块的最后一层神经网络生成最终的文字图像;
判别网络,用于对所述生成网络生成的文字图像与真实文字图像进行真假判断。
优选地,所述生成网络进一步包括:
风格编码模块,用于获取字体风格参考图像,对字体风格参考图像编码生成风格特征;
内容编码模块,用于获取字体内容参考图像,对字体内容参考图像编码生成内容特征,并将部分神经网络层输出的若干个内容特征送入形变特征传输模块;
特征解码模块,用于根据所述内容编码模块输出的内容特征在每一层神经网络生成初始的解码特征,并将风格特征融入各层的解码特征中形成解码特征,选取与所述内容编码模块送入形变特征传输模块的内容特征相对应的解码特征送入形变特征传输模块,获取形变特征传输模块送回的形变内容特征,与对应的解码特征级联后送入下一层神经网络,在最后一层神经网络生成最终的文字图像;
形变特征传输模块,用于对输入的每对特征,先将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,经卷积层卷积后得到卷积参数,并将所述内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到形变内容特征送回所述特征解码模块。
优选地,各模块均由若干层深度卷积神经网络组成。
优选地,所述风格编码模块将所生成的风格特征Zs计算均值和方差后送入所述特征解码模块的各层神经网络的归一化层,以便所述特征解码模块将风格特征融入解码特征。
优选地,所述特征解码模块通过将解码特征与风格特征的均值和方差在除空间维度外的第三维度对齐来使风格特征融入解码特征。
优选地,所述内容编码模块的各层神经网络层输出在尺寸或激活值上大小不一的内容特征,其中的若干特征{Fc1,Fc2,…,Fcn;1<=cn<N}被送入所述形变特征传输模块,其中N为所述内容编码模块的神经网络层数。
优选地,所述内容编码模块中被送入所述形变特征传输模块的内容特征与送入所述形变特征传输模块的解码特征成对存在,对于下标加和为N的一对特征在空间维度上相等,并认为其为相对应的特征。
优选地,对于上述每对特征{Fi,Ki;0<i<cn+1},所述形变特征传输模块先将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,该级联特征被一个卷积层卷积后得到权重卷积参数、x方向卷积参数、y方向卷积参数,然后内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到一个形变内容特征,最后该形变内容特征被送回混合网络与解码特征Ki进行级联送入所述特征解码模块中下一层神经网络。
优选地,所述判断网络将得到的损失函数数值用于更新判别网络与生成网络,所述生成网络得到的损失函数数值仅用于更新生成网络。
为达到上述目的,本发明还提供一种基于生成式对抗网络与可形变特征传输的文字生成方法,包括:
步骤S1,利用风格编码模块对字体风格参考图像编码生成风格特征;
步骤S2,利用内容编码模块对字体内容参考图像编码生成内容特征,并将部分神经网络层输出的若干个内容特征送入形变特征传输模块;
步骤S3,特征解码模块根据内容编码模块输出的内容特征在每一层神经网络生成初始的解码特征,同时将解码特征通过与风格特征的均值和方差在除空间维度外的第三维度对齐来使风格特征融入各层的解码特征中形成解码特征,并选取与送入形变特征传输模块的内容特征相应的解码特征送入形变特征传输模块;
步骤S4,利用形变特征传输模块对输入的每对特征,先将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,经卷积层卷积后得到卷积参数,并将内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到形变内容特征送回特征解码模块;
步骤S5,特征解码模块在获取到形变特征传输模块送回的形变内容特征后,与对应的解码特征级联后送入下一层神经网络,最后在最后一层神经网络生成最终的文字图像;
步骤S6,利用判别网络对步骤S5成的文字图像与真实文字图像进行真假判断。
与现有技术相比,本发明一种基于生成式对抗网络与可形变特征传输的文字生成装置及方法通过将文字图像的风格特征和内容特征分离后再重组,保证了生成汉字表现出风格参考图像的风格并保留内容参考图像的语义,同时通过形变特征传输模块直接将内容形变特征传输给特征解码模块,保证了特征解码模块生成汉字的结构完整性。
附图说明
图1为本发明一种基于生成式对抗网络与可形变特征传输的文字生成装置的系统架构图;
图2为本发明一种基于生成式对抗网络与可形变特征传输的文字生成方法的步骤流程图;
图3为本发明实施例中形变特征传输模块输出特征的可视化结果图;
图4为本发明实施例的效果图;
图5为本发明实施例与其他模型对比效果图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于生成式对抗网络与可形变特征传输的文字生成装置的系统架构图。如图1所示,本发明一种基于生成式对抗网络与可形变特征传输的文字生成装置,包括:
生成网络10,用于将文字图像的风格特征和内容特征分离后再重组形成解码特征,并通过形变特征传输模块根据解码特征与内容特征得到形变内容特征,最后将得到的形变内容特征在特征解码模块与对应解码特征进行级联后送入下一层神经网络,最后在特征解码模块的最后一层神经网络生成最终的文字图像。
在本发明具体实施例中,生成网络10包括风格编码模块101、内容编码模块102、特征解码模块103以及形变特征传输模块104,各模块均由若干层深度卷积神经网络组成。
具体地,生成网络10进一步包括:
风格编码模块101,用于获取字体风格参考图像,对字体风格参考图像编码生成风格特征Zs。
也就是说,将字体风格参考图像输入至风格编码模块101,由风格编码模块101将该字体风格参考图像编码成风格特征Zs。在本发明中,风格编码模块101包括若干层卷积神经网络,其每一层输出一个风格特征,最终的风格特征被用于后续模块处理。
优选地,风格编码模块101所生成的风格特征Zs还给特征解码模块103的若干normalization(归一化)层提供数据归一化的均值和方差,以便特征解码模块103的这些归一化层将解码特征的均值和方差与风格特征提供的数值对齐,从而将风格特征融入解码特征中。具体地说,风格编码模块101还利用所生成的风格特征Zs计算出均值和方差,所计算出的一组均值和方差被送入特征解码模块103,由特征解码模块103将每一个解码特征的均值和方差基于风格特征的均值和方差进行normalization(归一化),即基于风格特征的均值和方差来改变解码特征的均值与方差。
内容编码模块102,用于获取字体内容参考图像,对字体内容参考图像编码生成内容特征送入特征解码模块103,并将部分神经网络层输出的若干个内容特征送入形变特征传输模块104。
具体地,将字体内容参考图像输入内容编码模块102,内容编码模块102由若干层深度卷积神经网络组成,其内部各层神经网络层输出在尺寸或激活值上大小不一的内容特征,其中的若干特征{Fc1,Fc2,…,Fcn;1<=cn<N}被送入形变特征传输模块104,其中N为内容编码模块102的神经网络层数,最后一层输出的内容特征Zc被送入特征解码模块103。
特征解码模块103,由若干层深度卷积神经网络组成,接收内容编码模块输出的内容特征进行卷积操作,具体地,根据内容编码模块102输出的内容特征在每一层神经网络生成初始的解码特征,同时将解码特征通过与风格特征Zs的均值和方差在除空间维度外的第三维度对齐来使风格特征融入各层的解码特征,并选取与内容编码模块102送入形变特征传输模块104的内容特征相应的解码特征送入形变特征传输模块104(相应指的是被选取的内容特征与解码特征在空间维度(特征通常表现为H*W*C的矩阵,H与W为空间维度)上一致),获取形变特征传输模块104送回的形变内容特征,与对应的解码特征级联后送入下一层神经网络,最后在最后一层神经网络生成最终的文字图像。
也就是说,风格编码模块101生成的风格特征Zs提供给特征解码模块103的若干normalization(归一化)层(特征解码模块103的每一层神经网络的最后一层都是归一化层)提供数据归一化的均值和方差,特征解码模块103通过与该风格特征Zs的均值和方差在除空间维度外的第三维度(即H*W*C矩阵中的C维度)对齐来使风格特征融入解码特征中,即,将初始的解码特征的特征矩阵看成C个H*W的二维矩阵,C个矩阵中相同位置(如每个矩阵的第一行第一列的位置)算作同一类,对每一类计算均值mu和方差sigma。将这个mu和sigma与基于风格特征计算出来的均值和方差进行对齐,其具体操作如下公式所示:
其中x为特征解码模块103各层神经网络输出的解码特征,仅基于内容特征生成,y为风格特征Zc,μ(·)为均值函数、σ(·)为方差函数。
同时,特征解码模块103内部每一层网络输出一个解码特征,同时将若干解码特征Ks{0<s<N}被送入形变特征传输模块104。需要注意的是,对于内容编码模块102中被送入形变特征传输模块104的内容特征与送入形变特征传输模块104的解码特征成对存在,即在空间维度HW维度一致,对于下标加和为N的一对特征在空间维度上相等,即若干内容特征{Fc1,Fc2,…,Fcn;1<=cn<N}对应的解码特征为,K(N-c1).,K(N-c2),…,K(N-cn)}。具体地说,内容编码模块102每一层输出一个内容特征,但只有最后一层输出的内容特征Zc被直接送入特征解码模块,并根据最后一层的内容特征Zc在特征解码模块103的每一层输出解码特征,由于送入形变特征传输模块104的内容特征和解码特征需要在空间维度HW维度对应,内容编码模块102实际上是在空间维度上的降维操作,而特征解码模块103则实际上是空间维度的升维作用,在本实施例中,假设内容编码模块102与特征解码模块103的神经网络都只有5层,即N=5,内容编码模块102的第一个和第二个输出(第一层和第二层输出)在空间维度上与特征解码模块103的第四个和第三个解码特征(第四层和第三层)对应,因此特征解码模块103的第一层和第二层输出解码特征直接传入下一层,不同于前面两层,第三层和第四层输出的解码特征Z(暂以Z字母代替)先送入FDSC(形变特征传输模块104)中,FDSC生成的形变内容特征被传回来会与Z在HWC中的C维度进行级联,这个级联的特征再送入下一层卷积神经网络,也就是说,第一层输出解码特征到第二层,第二层输出解码特征到第三层,第三层则是先送入FDSC(形变特征传输模块104)与相应的内容特征进行级联卷积后返回第三层再与第三层输出的解码特征级联后送入第四层,依此类推,即:不送入FDSC的解码特征会直接送入下一层,要送入FDSC(形变特征传输模块104)的解码特征要与FDSC(形变特征传输模块104)返回的特征级联后再送入下一层。
形变特征传输模块104,用于对输入的每对特征{Fi,Ki;0<i<cn+1},先将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,经卷积层卷积后得到卷积参数,并将内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到形变内容特征送回特征解码模块103与相应的解码特征Ki级联。
具体地,对于上述每对特征{Fi,Ki;0<i<cn+1},形变特征传输模块104先将内容特征Fi与解码特征Ki在空间维度(HW维度)以外的第三维度上进行级联,该级联特征被一个卷积层卷积后得到三种卷积核的参数:权重卷积参数、x方向卷积参数、y方向卷积参数,然后内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到一个形变内容特征,最后该形变内容特征被送回混合网络与解码特征Ki进行级联送入特征解码模块103中下一层神经网络,所述卷积核参数由整个模型通过优化损失函数进行动态的变化获得。
判别网络20,包括判别模块,用于对生成网络10生成的文字图像与真实文字图像进行真假判断。所述判别模块由若干层深度卷积神经网络组成。
在本发明中,判别网络20也由若干层神经网络组成,通过当前送入图像是生成的假图还是真实的字体图像来更新模型,即判断网络20将得到的损失函数数值用于更新判别网络20与生成网络10,而生成网络10得到的损失函数数值仅用于更新生成网络10。在本发明中,构造损失函数的依据为:1、根据风格真假的判定构建对抗损失函数;2、根据内容不变性设计内容编码一致性损失函数等;3、根据形变传输网络的偏移量约束设计偏移约束损失函数,损失函数用于评估模型的性能,整个模型在训练时通过降低损失函数的输出来指导网络更新。
图2为本发明一种基于生成式对抗网络与可形变特征传输的文字生成方法的步骤流程图。如图2所示,本发明一种基于生成式对抗网络与可形变特征传输的文字生成方法,包括:
步骤S1,利用风格编码模块对字体风格参考图像编码生成风格特征Zs。
也就是说,将字体风格参考图像输入至风格编码模块,由风格编码模块将该字体风格参考图像编码成风格特征Zs。
步骤S2,利用内容编码模块对字体内容参考图像编码生成内容特征送入特征解码模块,并将部分神经网络层输出的若干个内容特征送入形变特征传输模块。
具体地,将字体内容参考图像输入内容编码模块,内容编码模块内部各层神经网络层输出在尺寸或激活值上大小不一的内容特征,其中的若干特征{Fc1,Fc2,…,Fcn;1<=cn<N}被送入形变特征传输模块,其中N为内容编码模块102的神经网络层数,最后一层输出的内容特征Zc被送入特征解码模块。
步骤S3,特征解码模块根据内容编码模块输出的内容特征在每一层神经网络生成初始的解码特征,同时将解码特征通过与风格特征Zs的均值和方差在除空间维度外的第三维度对齐来使风格特征融入各层的解码特征中形成解码特征,并选取与送入形变特征传输模块的内容特征相应的解码特征送入形变特征传输模块。
优选地,于步骤S1中,风格编码模块所生成的风格特征Zs还给特征解码模块的若干normalization(归一化)层提供数据归一化的均值和方差,以便特征解码模块的这些归一化层将解码特征的均值和方差与风格特征提供的数值对齐,从而将风格特征融入解码特征中。
于步骤S3中,将每一层神经网络生成的解码特征通过与该风格特征Zs的均值和方差在除空间维度外的第三维度对齐来使风格特征融入解码特征中,其具体方式如下:
其中x为特征解码模块各层神经网络输出的解码特征,仅基于内容特征生成,y为风格特征Zc,μ(·)为均值函数、σ(·)为方差函数。
特征解码模块内部每一层神经网络输出一个解码特征,同时将若干解码特征Ks{0<s<N}被送入形变特征传输模块。需要注意的是,对于内容编码模块中被送入形变特征传输模块的内容特征与送入形变特征传输模块的解码特征成对存在,即对于下标加和为N的一对特征在空间维度上相等。
步骤S4,利用形变特征传输模块对输入的每对特征{Fi,Ki;0<i<cn+1},先将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,经卷积层卷积后得到卷积参数,并将内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到形变内容特征送回特征解码模块。
具体地,对于上述每对特征{Fi,Ki;0<i<cn+1},形变特征传输模块先将内容特征Fi与解码特征Ki在空间维度(HW维度)以外的第三维度上进行级联,该级联特征被一个卷积层卷积后得到三种卷积核的参数:权重卷积参数、x方向卷积参数、y方向卷积参数,然后内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到一个形变内容特征,最后该形变内容特征被送回特征解码模块与解码特征Ki进行级联送入特征解码模块中下一层神经网络,所述卷积核参数由整个模型通过优化损失函数进行动态的变化获得。
步骤S5,特征解码模块在获取到形变特征传输模块送回的形变内容特征后,与对应的解码特征级联后送入下一层神经网络,在最后一层神经网络生成最终的文字图像。
步骤S6,利用判别网络对步骤S5成的文字图像与真实文字图像进行真假判断。
实施例
在本实施例中,一种基于生成式对抗网络和可形变特征传输的文字生成方法,包括如下步骤:
步骤一,将内容参考图像和风格参考图像分别送入内容编码模块和风格编码模块。内容参考图像与风格参考图像分别以汉字楷体以及一种汉字书法体为例。值得注意的是内容参考图像和风格参考图像的风格不同,语义也不同。
步骤二,风格编码模块将风格编码图像编码成风格特征Zs。
步骤三,内容编码模块将第一层及第二层神经网络输出的内容特征送入形变特征传输模块,并且将内容参考图像编码成内容特征Zc。
步骤四,内容特征Zc直接送入特征解码模块中并在每一层生成初始的解码特征,同时,将解码特征通过与风格特征Zs的均值和方差在除空间维度外的第三维度对齐来使风格特征融入解码特征中,具体方式如下:
其中x为特征解码模块各层神经网络输出的解码特征,y是风格特征Zc,公式中解码特征x仅基于内容特征Zs生成。μ(·)为均值函数、σ(·)为方差函数。
步骤五,选取特征解码模块中第三个和第四个解码特征送入形变特征传输模型,本实施例中,假设内容编码模块与特征解码模块的神经网络均为五层。
步骤六,第四个解码特征与步骤三中第一层输出的内容特征同时被送到形变特征传输模块形成一对特征组,传入的一对特征组在除空间维度外的第三维度被级联在一起。级联的特征通过一个卷积核为3*3的卷积核生成了卷积核的参数:权重卷积参数、x方向卷积参数、y方向卷积参数。同时,另有一个3*3卷积核基于该三个参数对输入的内容特征进行可形变卷积,得到一个形变内容特征,该形变内容特征被送回特征解码模块,第三个解码特征与步骤三中第二层输出的特征网络操作与上述相同,图3为本发明实施例的形变特征传输模块输出特征的可视化结果。
步骤七,在特征解码模块中,步骤六中由第三个解码特征与对应内容特征生成的形变内容特征与第三个解码特征进行级联,输入到下一个卷积网络层。
步骤八,在特征解码模块中,步骤六中由第四个解码特征与对应内容特征生成的形变内容特征与第四个解码特征进行级联,输入到下一个卷积网络层。
步骤九,输出最终的文字图像后,利用判别网络对生成的文字图像进行真假判别,如图4所示为本发明实施例的效果图。
实施效果:
依据上述步骤,对由互联网上提供的四百种中文字体进行实验。上述四百种字体包含手写体和印刷体等多种风格各异的字体,其中每一种字体又包含了990个最常用汉字。这些数据集被随机划分为训练集和测试集。训练集包含了所述四百种字体,并且每种字体包含了800个汉字,剩下的190个汉字作为测试集。
为了体现本发明的进步性,本发明与Cycle-GAN(Jun-Yan Zhu等人提出),EMD(YZhang等人提出),Zi2zi(Yuchen Tian提出),以及FUNIT(Ming-Yu Liu等人提出)进行定量与定性的比较。在定量比较上本发明采用了Fréchet Inception Distance(由论文The Fréchet distance between multivariate normal distributions提出,简称FID)、PerceptualSimilarity(由论文The Unreasonable Effectiveness ofDeep Features asa Perceptual Metric提出,简称LPIPS)为衡量指标对五种方法的检测结果进行评价。FID用于衡量两个生成数据集与真实数据集分布之间的差别,LPIPS用于衡量图像之间的感知距离,两种指标越低表明方法生成图片的质量越高、多样性越好。
通过对五种方法在测试集上进行测试,并将评价的结果比较如下:
Methods | LPIPS | FID |
Cycle-GAN | 0.1825 | 175.24 |
Zi2zi | 0.1065 | 142.23 |
EMD | 0.1036 | 89.65 |
FUNIT | 0.1216 | 53.77 |
Ours | 0.0814 | 46.15 |
同时,如图5所示,source为字体内容参考图像,target为用于对比生成质量的真实图像。
上述定量与定性的评价结果对比说明本方法在生成图像质量方面均优于上述四种方法,进一步体现了本发明方法的创造性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种基于生成式对抗网络与可形变特征传输的文字生成装置,包括:
生成网络,用于将文字图像的风格特征和内容特征分离后再重组形成解码特征,并通过形变特征传输模块根据部分解码特征与相应的内容特征得到形变内容特征,将得到的形变内容特征在特征解码模块与对应的解码特征进行级联后送入下一层神经网络,最后在特征解码模块的最后一层神经网络生成最终的文字图像;
判别网络,用于对所述生成网络生成的文字图像与真实文字图像进行真假判断。
2.如权利要求1所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于,所述生成网络进一步包括:
风格编码模块,用于获取字体风格参考图像,对字体风格参考图像编码生成风格特征;
内容编码模块,用于获取字体内容参考图像,对字体内容参考图像编码生成内容特征传送至特征解码模块,并将部分神经网络层输出的若干个内容特征送入形变特征传输模块;
特征解码模块,用于根据所述内容编码模块输出的内容特征在每一层神经网络生成初始的解码特征,并将风格特征融入各层的解码特征中形成解码特征,选取与所述内容编码模块送入形变特征传输模块的内容特征相对应的解码特征送入形变特征传输模块,获取形变特征传输模块送回的形变内容特征,与对应的解码特征级联后送入下一层神经网络,在最后一层神经网络生成最终的文字图像;
形变特征传输模块,用于对输入的每对特征,将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,经卷积层卷积后得到卷积参数,并将所述内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到形变内容特征送回所述特征解码模块。
3.如权利要求2所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于:各模块均由若干层深度卷积神经网络组成。
4.如权利要求3所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于:所述风格编码模块将所生成的风格特征Zs计算均值和方差后送入所述特征解码模块的各层神经网络的归一化层,以便所述特征解码模块将风格特征融入解码特征。
5.如权利要求4所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于:所述特征解码模块通过将解码特征与风格特征的均值和方差在除空间维度外的第三维度对齐来使风格特征融入解码特征。
6.如权利要求5所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于:所述内容编码模块的各层神经网络层输出在尺寸或激活值上大小不一的内容特征,其中的若干特征{Fc1,Fc2,…,Fcn;1<=cn<N}被送入所述形变特征传输模块,其中N为所述内容编码模块的神经网络层数。
7.如权利要求6所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于:所述内容编码模块中被送入所述形变特征传输模块的内容特征与送入所述形变特征传输模块的解码特征成对存在,对于下标加和为N的一对特征在空间维度上相等,并认为其为相对应的特征。
8.如权利要求7所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于:对于上述每对特征{Fi,Ki;0<i<cn+1},所述形变特征传输模块先将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,该级联特征被一个卷积层卷积后得到权重卷积参数、x方向卷积参数、y方向卷积参数,然后内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到一个形变内容特征,最后该形变内容特征被送回混合网络与解码特征Ki进行级联送入所述特征解码模块中下一层神经网络。
9.如权利要求8所述的一种基于生成式对抗网络与可形变特征传输的文字生成装置,其特征在于:所述判断网络将得到的损失函数数值用于更新判别网络与生成网络,所述生成网络得到的损失函数数值仅用于更新生成网络。
10.一种基于生成式对抗网络与可形变特征传输的文字生成方法,包括:
步骤S1,利用风格编码模块对字体风格参考图像编码生成风格特征;
步骤S2,利用内容编码模块对字体内容参考图像编码生成内容特征传送至特征解码模块,并将其部分神经网络层输出的若干个内容特征送入形变特征传输模块;
步骤S3,特征解码模块根据内容编码模块输出的内容特征在每一层神经网络生成初始的解码特征,同时将解码特征通过与风格特征的均值和方差在除空间维度外的第三维度对齐来使风格特征融入各层的解码特征中形成解码特征,并选取与送入形变特征传输模块的内容特征相应的解码特征送入形变特征传输模块;
步骤S4,利用形变特征传输模块对输入的每对特征,先将内容特征Fi与解码特征Ki在空间维度以外的第三维度上进行级联,经卷积层卷积后得到卷积参数,并将内容特征Fi由该卷积参数指导下的卷积核进行卷积,得到形变内容特征送回特征解码模块;
步骤S5,特征解码模块在获取到形变特征传输模块送回的形变内容特征后,与对应的解码特征级联后送入下一层神经网络,最后在最后一层神经网络生成最终的文字图像;
步骤S6,利用判别网络对步骤S5成的文字图像与真实文字图像进行真假判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110312881.0A CN114998895A (zh) | 2021-03-24 | 2021-03-24 | 一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110312881.0A CN114998895A (zh) | 2021-03-24 | 2021-03-24 | 一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114998895A true CN114998895A (zh) | 2022-09-02 |
Family
ID=83018723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110312881.0A Pending CN114998895A (zh) | 2021-03-24 | 2021-03-24 | 一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998895A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753493A (zh) * | 2019-09-29 | 2020-10-09 | 西交利物浦大学 | 基于少量样本的内含多种归一化处理的风格字符生成方法 |
US20210012181A1 (en) * | 2019-01-03 | 2021-01-14 | Boe Technology Group Co., Ltd. | Computer-implemented method of training convolutional neural network, convolutional neural network, computer-implemented method using convolutional neural network, apparatus for training convolutional neural network, and computer-program product |
-
2021
- 2021-03-24 CN CN202110312881.0A patent/CN114998895A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210012181A1 (en) * | 2019-01-03 | 2021-01-14 | Boe Technology Group Co., Ltd. | Computer-implemented method of training convolutional neural network, convolutional neural network, computer-implemented method using convolutional neural network, apparatus for training convolutional neural network, and computer-program product |
CN111753493A (zh) * | 2019-09-29 | 2020-10-09 | 西交利物浦大学 | 基于少量样本的内含多种归一化处理的风格字符生成方法 |
Non-Patent Citations (3)
Title |
---|
XUN HUANG 等: "Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 25 December 2017 (2017-12-25), pages 1510 - 1519 * |
YANGCHEN XIE 等: "DG-Font: deformable generative networks for unsupervised font generation", 《ARXIV:2104.03064》, 7 April 2021 (2021-04-07), pages 1 - 14 * |
谢扬琛: "基于风格迁移的无监督图文生成", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 04, 15 April 2024 (2024-04-15), pages 138 - 894 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Global second-order pooling convolutional networks | |
Wang et al. | G2DeNet: Global Gaussian distribution embedding network and its application to visual recognition | |
Huang et al. | Joint-sparse-blocks and low-rank representation for hyperspectral unmixing | |
CN112084362B (zh) | 一种基于层次化特征互补的图像哈希检索方法 | |
Baxter et al. | Data handling and statistical analysis | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN111104912A (zh) | 一种书法字体类型与文字内容同步识别方法 | |
CN112287965A (zh) | 图像质量检测模型训练方法、装置和计算机设备 | |
Sui et al. | ScanDMM: A deep markov model of scanpath prediction for 360deg images | |
Löwe et al. | Learning object-centric video models by contrasting sets | |
CN115205547A (zh) | 一种目标图像的检测方法、装置、电子设备及存储介质 | |
Wang et al. | High-dimensional Data Clustering Using K-means Subspace Feature Selection. | |
Annisa et al. | Analysis and Implementation of CNN in Real-time Classification and Translation of Kanji Characters | |
CN114998895A (zh) | 一种基于生成式对抗网络与可形变特征传输的文字生成方法及装置 | |
CN107885854A (zh) | 一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法 | |
Lohaus et al. | Uncertainty estimates for ordinal embeddings | |
Qi et al. | PQA: Perceptual question answering | |
Storrs et al. | Unsupervised learning predicts human perception and misperception of specular surface reflectance | |
Bagui | Combining pattern classifiers: methods and algorithms | |
Zhao et al. | Fully attentional networks with self-emerging token labeling | |
Shan et al. | Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment | |
Yang et al. | SRI-XDFM: A Service Reliability Inference Method Based on Deep Neural Network. | |
Olson et al. | Unsupervised attribute alignment for characterizing distribution shift | |
Damasceno et al. | Independent vector analysis with sparse inverse covariance estimation: An application to misinformation detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |