CN118036555A - 基于骨架式转移和结构对比学习的少样本字体生成方法 - Google Patents
基于骨架式转移和结构对比学习的少样本字体生成方法 Download PDFInfo
- Publication number
- CN118036555A CN118036555A CN202410435132.0A CN202410435132A CN118036555A CN 118036555 A CN118036555 A CN 118036555A CN 202410435132 A CN202410435132 A CN 202410435132A CN 118036555 A CN118036555 A CN 118036555A
- Authority
- CN
- China
- Prior art keywords
- style
- loss
- image
- skeleton
- font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012546 transfer Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 62
- 230000008569 process Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000010420 art technique Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,公开了基于骨架式转移和结构对比学习的少样本字体生成方法,包括下列步骤:步骤一、建立生成模型,所述生成模型包括生成器和鉴别器;步骤二、对生成模型进行训练,通过将整体损失最小化来优化少样本字体生成模型;步骤三、完成训练后利用训练好的字体生成模型进行字体生成;所述生成模型为少样本字体生成模型,还包括结构对比学习模块,所述结构对比学习模块将字体结构划分为若干类别,并基于所有的训练图像通过聚类方法计算对应各个类别的聚类中心,将聚类中心存储在字典中。本发明同时增强内容和风格表示的全局信息和局部信息,从而借助这两个模块有效地解决笔画错位和样式失真等问题。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及基于骨架式转移和结构对比学习的少样本字体生成方法。
背景技术
采用常规的字体生成模型则需要较多字体样本对模型进行训练,而字体样本设计传统上是通过手工制作,但手动创建过程属于劳动密集型工作且耗时较长,因此深入研究少样本的自动化字体生成技术有很大的重要性。少样本字体生成旨在用最少的样本创建新的字体样式,由于汉字的笔画和结构组成,对汉字来说尤其具有挑战性。现有的少样本字体生成模型分为两大类:面向组件的模型和面向内容的模型。
面向组件的模型的重点在于捕捉和表示局部或细粒度的样式特征。在一些现有技术中,模型利用汉字的组件并通过学习组件级别的样式来进行字体生成。在一些现有技术中,模型则通过一种基于注意力的组件感知模块CG-GAN来监督字体生成。这些面向组件的模型在学习局部级别的样式方面表现出色,但使用的组件信息通常难以表示字符的整体结构信息,导致生成结果不尽如人意,例如存在笔画错位和样式扭曲。
与面向组件的模型不同,面向内容的模型集中于捕捉和表示字体的整体或全局样式特征,无需进行标记。在有的现有技术中,技术人员引入了一个特征变形跳过连接来预测增强内容表示的位移映射对。在另一些现有技术中,技术人员则引入了一个称为LSG-FCST的层相似性引导模型,用于捕捉内容和样式特征之间的差异。还有些现有技术则设计了一个内容融合模块,允许提取代表性的内容特征。尽管这些模型在捕捉总体风格方面有效,但它们在表示局部样式细节方面表现不佳,导致局部样式模糊。
因此如何兼顾字符的整体结构信息和局部细节成为现有技术需要解决的技术问题。
发明内容
本发明的目的是提供基于骨架式转移和结构对比学习的少样本字体生成方法,用于解决现有技术中在少样本情况下生成字体难以兼顾字符的整体结构信息和局部细节的技术问题。
所述的基于骨架式转移和结构对比学习的少样本字体生成方法,包括下列步骤。
步骤一、建立生成模型,所述生成模型包括生成器和鉴别器。
步骤二、对生成模型进行训练,通过将整体损失最小化来优化少样本字体生成模型。
步骤三、完成训练后利用训练好的字体生成模型进行字体生成。
所述生成模型为少样本字体生成模型,还包括结构对比学习模块,生成器用于根据内容图像和风格图像生成对应字符具有目标字体风格的生成图像;鉴别器用于在训练时鉴别生成图像的真实性;所述结构对比学习模块将字体结构划分为若干类别,并基于所有的训练图像通过聚类方法计算对应各个类别的聚类中心,将聚类中心存储在字典中。
步骤二中,使用综合对抗损失、L1损失和结构对比损失形成的整体损失来评估生成图像的质量,结构对比损失用于监督生成图像的结构并同时保持生成图像风格的一致性,在训练中根据每次迭代所得的生成图像对字典进行优化更新,同时更新参数让整体损失最小化。
优选的,所述步骤二具体包括下列步骤。
S2.1、采集多种字体的汉字字符图像形成训练图像的训练集。
S2.2、进行结构对比学习模块的初始化。
S2.3、通过生成器生成目标字体风格的生成图像。
S2.4、通过综合对抗损失、L1损失和结构对比损失形成的整体损失来评估生成图像的质量并进行相应参数优化。
优选的,所述步骤S2.1中,训练图像包括内容图像、目标图像和风格图像,内容图像为用于识别出字符内容的字符图像,目标图像为具有目标字体风格并对应内容图像的图像,风格图像为具有目标字体风格的字符样本,训练图像还包括其他用于产生存储字典的多种字体的字符图像。
优选的,所述步骤S2.2中,在训练开始时,先根据每种风格的结构标签将字体结构划分为若干不同的类别,基于这种结构划分的结构编码器用于对所有训练图像进行编码,训练图像经结构编码后能得到相应的结构特征,结构特征表示为U={u11,u12,...,ump},其中U为对应的结构特征的集合,uij为对应训练图像xij的结构特征;其中i=1,2,...,m,i为字体编号,m为结构特征的集合中字体的数量;j=1,2,...,p,j为对应字体的每个结构特征的编号,与对应的字符编号相同,p为相应字体的结构特征数量;编码过程表示为uij=Ef(xij),Ef(・)表示通过结构编码器Ef编码;接着使用所述结构标签计算每个类别的平均值以建立聚类中心,计算聚类中心的公式如下:
,
其中Hk表示第k个聚类,|・|表示每个聚类中实例的数量,Hk包含了所有属于第k个聚类的结构特征uij,而Sk表示第k个聚类中心;建立聚类中心后将这些聚类中心形成的记忆字典存储在存储字典中。
优选的,少样本字体生成模型还包括骨架提取模块,生成器进一步包括内容编码器、风格编码器、骨架编码器、骨架-风格转移模块和混合器,所述步骤S2.3中,内容图像经过骨架提取模块提取骨架特征后形成骨架图像,骨架图像、内容图像和风格图像均输入到生成器中,内容编码器处理内容图像得到内容特征,风格编码器处理风格图像得到风格特征,骨架编码器处理骨架图像;风格图像和骨架图像分别输入到风格编码器和骨架编码器后,在风格编码器和骨架编码器的第四层分别生成了第一特征和第二特征,二者通过骨架-风格转移模块融合形成骨架-风格嵌入特征,将内容特征、风格特征和骨架-风格嵌入特征输入到混合器中进行合并融合从而得到生成图像。
优选的,所述步骤S2.3中,第一特征和第二特征通过骨架-风格转移模块融合的计算方法如下:fs=m(xs+xsk)・xs+(1-m(xs+xsk))・xsk,其中,m(・)表示通过多尺度通道注意力模块处理以得到的注意力特征,fs为融合形成骨架-风格嵌入特征,xs表示第一特征,xsk表示第二特征,将第一特征和第二特征相加得到特征和,特征和输入多尺度通道注意力模块,经过全局平均池化得到新特征,新特征与特征和均依次经过卷积、GeLU激活、再次卷积处理;将二者处理结果相加后通过Sigmoid函数处理再与开始时输入的特征和相乘从而得到注意力特征;m(xs+xsk)即表示该注意力特征,同时也是介于0到1之间的融合权重,对应第一特征;对应第二特征的融合权重为1-m(xs+xsk)。
优选的,所述步骤S2.4中,结构对比损失的损失函数如下:
,
其中,Lsc表示结构对比损失,·表示点积运算,q表示生成图像的查询实例,Sk表示存储字典中与查询实例对应的聚类中心,包括正样本S+和负样本S-,N表示Sk中的样本总数,参数τ是一个温度缩放因子。
计算结构对比损失时需要将生成图像经所述结构编码器编码得到生成图像的查询实例q,每个训练迭代期间,通过查询实例q寻找与之相似结构特征向量的正样本S+,而那些不相似的则视为负样本S−,引导查询实例q朝着正样本S+的方向进行学习,存储字典根据每次迭代的查询实例q不断更新和调整,存储字典更新的计算公式如下:
,
其中Qk表示第k个类别的生成图像编码得到的查询实例的集合,t是动量更新因子。
优选的,所述步骤S2.4中,对抗损失包括内容对抗损失和风格对抗损失,内容对抗损失的损失函数如下:Ladvc=LcontG+LcontD,其中,LcontG表示内容生成损失,LcontD表示内容鉴别损失,Ladvc表示内容对抗损失;风格对抗损失的损失函数如下:Ladvs=LstyleG+LstyleD,其中,LstyleG表示风格生成损失,LstyleD表示风格鉴别损失,Ladvs表示风格对抗损失;少样本字体生成模型的整体损失的损失函数如下:LSTS-Font=λadv(Ladvc+Ladvs)+λL1L1+λlscLsc,其中,λadv、λL1和λlsc是三个可调节的超参数,分别为对应综合对抗损失、L1损失和结构对比损失的三个权重,LSTS-Font是少样本字体生成模型的整体损失。
优选的,L1损失的损失函数如下:,其中,/>表示在给定数据集中生成图像/>和目标图像y的分布下计算期望值。
本发明具有以下优点:本发明的生成模型中设置了结构对比学习模块,采用结构记忆字典引入了一种新颖的结构对比学习方法。在训练过程之前,其中的存储字典使用训练数据进行初始化,从聚类对比方面创建更准确的结构表示;并在训练过程中更新结构表示,以限制判别器并优化生成器,训练中利用结构对比损监督生成图像的结构,保持生成图像风格的一致性,并基于结构特征强调生成字符的局部细节。
本方案采用的生成器不仅具有内容编码器和风格编码器,还通过提取骨架图像并利用骨架编码器提取特征,从而能利用骨架-风格转移模块改善内容和风格的转化。用骨架-风格转移模块能通过骨架自适应地提取风格特征,再通过整合的特征保持全面的内容和风格信息,将骨架-风格嵌入特征和风格特征、内容特征混合生成图像,能有效增强生成图像的内容和风格表示。
本方案整合了结构对比学习模块和骨架-风格转移模块,因此能同时增强内容和风格表示的全局信息和局部信息,从而借助这两个模块有效地解决笔画错位和样式失真等问题。通过实验对比可知相比现有技术,该方案生成的图像具有更精确的内容和更逼真的风格。同时该方案在跨语言字体生成方面的良好泛化性能。
附图说明
图1为本发明基于骨架式转移和结构对比学习的少样本字体生成方法的模型流程图。
图2为本发明中骨架-风格转移模块的流程示意图。
图3为本发明实施例中字体结构的七个类别的示意图,虚线部分表示对应类别包含的字体结构。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和伸入的理解。
如图1-图3所示,本发明提供了基于骨架式转移和结构对比学习的少样本字体生成方法,包括下列步骤。
步骤一、建立少样本字体生成模型,所述少样本字体生成模型包括生成器、鉴别器和结构对比学习模块。
生成器(G)用于根据内容图像和风格图像生成对应字符具有目标字体风格的生成图像;鉴别器用于在训练时鉴别生成图像的真实性;所述结构对比学习(structualcontrastive learning,SCL)模块将字体结构划分为若干类别,并基于所有的训练图像通过聚类方法计算对应各个类别的聚类中心,将聚类中心存储在字典中,并在训练中根据每次迭代所得的生成图像对字典进行优化更新。此外该模型还可以设置骨架提取模块以从字符的内容图像中提取骨架图像。
其中生成器进一步包括内容编码器(Ec)、风格编码器(Es)、骨架编码器(Esk)、骨架-风格转移(skeleton-style transfer, SST)模块和混合器(M)。内容编码器用于从字符的内容图像(即未转化字体风格的现有字体的图像)提取字符的内容特征,风格编码器Es用于从风格图像提取相应的风格特征。骨架编码器用于对骨架图像进行处理。骨架-风格转移模块用于将风格编码器和骨架编码器中产生的特征融合形成骨架-风格嵌入特征(fs),从而通过字符的骨架自适应地提取相应风格特征,混合器用于将内容特征(Xc)、风格特征(Xs)和骨架-风格嵌入特征融合形成生成图像。
鉴别器基于目标图像(即具有目标图像风格并与内容图像对应的图像)评估生成图像的真实性,包括风格鉴别器和内容鉴别器。风格鉴别器用于评估所述生成图像的风格特征的真实性,内容鉴别器用于评估生成图像的风格特征的真实性。
所述结构对比学习模块包括结构编码器和存储字典,所述结构编码器用于对所有训练图像基于结构进行编码,将字体结构划分为若干类别并对应设置每种风格的结构标签,在初始化时基于编码后图像聚类创建聚类级别的记忆字典进行存储形成所述存储字典,所述存储字典在训练时根据每次迭代所得的生成图像进行更新调整。
步骤二、对所述少样本字体生成模型进行训练,使用综合对抗损失、L1损失和结构对比损失形成的整体损失来评估生成图像的质量,通过将整体损失最小化来优化少样本字体生成模型。
在训练过程中具体包括下列步骤。
S2.1、采集多种字体的汉字字符图像形成训练图像的训练集。
训练图像包括内容图像、目标图像、风格图像和其他用于产生存储字典的字符图像。内容图像为现有字体能供生成器识别出字符内容,目标图像为具有目标字体风格并对应内容图像的图像,风格图像为具有目标字体风格的字符样本,训练图像还包括其他多种字体的字符图像。
S2.2、进行结构对比学习模块的初始化。
结构对比学习旨在将相似的结构化字体拉近,同时将不同的结构化字体推远,对于具体的字符图像,相似的结构化字体即正样本,不同的结构化字体即负样本。考虑到汉字字体风格的多样性,本方法基于聚类对比技术创建了一个聚类级别的记忆字典,并基于这种字体结构相关的记忆字典引入了一种新颖的结构对比学习方法。该方法旨在监督汉字生成的质量,降低计算成本,并保持数据的一致性。
该步骤在训练开始时,由于训练图像中基于结构类别的字符数量不平衡,先根据每种风格的结构标签将字体结构划分为若干不同的类别,例如本实施例设置为七个类别,七个类别的具体划分如附图3所示。基于这种结构划分的结构编码器(E)用于对所有训练图像进行编码,训练集表示为X={x11,x12,...,xMP},其中X为训练集,xij为训练集的元素即训练图像,xij为训练集的元素即训练图像,其中i=1,2,...,M,i为字体编号,M为训练集中字体的数量;j=1,2,...,P,其中j为对应字体的字符编号,P为训练集中相应字体的字符数量。训练图像经结构编码后能得到相应的结构特征,结构特征表示为U={u11,u12,...,ump},其中U为对应的结构特征的集合,uij为对应训练图像xij的结构特征,其中i=1,2,...,m,i为字体编号,m为结构特征的集合中字体的数量;j=1,2,...,p,j为对应字体的每个结构特征的编号,与对应的字符编号相同,p为相应字体的结构特征数量。上述编码过程表示为uij=Ef(xij),Ef(・)表示通过结构编码器Ef编码。
接着使用所述结构标签计算每个类别的平均值以建立聚类中心,计算聚类中心的公式如下:
,
其中Hk表示第k个聚类,|・|表示每个聚类中实例的数量,Hk包含了所有属于第k个聚类的结构特征uij,而Sk表示第k个聚类中心,建立聚类中心后将这些聚类中心形成的记忆字典存储在存储字典中。
S2.3、通过生成器生成目标字体风格的生成图像。
内容图像经过骨架提取模块提取骨架特征后形成骨架图像,骨架图像、内容图像和风格图像均输入到生成器中由对应的编码器处理,具体为:内容编码器处理内容图像得到内容特征,风格编码器处理风格图像得到风格特征,骨架编码器处理骨架图像。
骨架-风格转移模块旨在通过骨架自适应地提取风格特征,通过整合来自骨架编码器和风格编码器的两种特征保持全面的内容和风格信息。字符的风格图像(Is)和骨架图像(Isk)分别输入到风格编码器和骨架编码器后,在风格编码器和骨架编码器的第四层分别生成了第一特征(xs)和第二特征(xsk),二者通过骨架-风格转移模块融合,相应的计算方法如下:fs=m(xs+xsk)・xs+(1-m(xs+xsk))・xsk,其中,m(・)表示通过多尺度通道注意力模块(MS-CAM)处理以得到的注意力特征,fs为融合形成骨架-风格嵌入特征。
该步骤中,将第一特征(xs)和第二特征(xsk)相加得到特征和(xss)。特征和(xss)输入多尺度通道注意力模块,经过全局平均池化得到新特征,新特征与特征和均依次经过卷积(实现批标准化)、GeLU激活、再次卷积,将二者处理结果相加后通过Sigmoid函数处理再与开始时输入的特征和相乘从而得到注意力特征。简而言之,即通过多尺度通道注意力模块中卷积、GeLU激活等一系列操作来学习特征和的全局和局部信息,最终通过通过Sigmoid函数传递得到注意力特征。m(xs+xsk)即表示该注意力特征,同时也是介于0到1之间的融合权重,对应第一特征;对应第二特征的融合权重为1-m(xs+xsk)。
得到骨架-风格嵌入特征后,将内容特征、风格特征和骨架-风格嵌入特征输入到混合器中进行合并融合从而得到生成图像。
S2.4、通过综合对抗损失、L1损失和结构对比损失形成的整体损失来评估生成图像的质量并进行相应参数优化。
本方法的模型遵循生成对抗网络的框架,在模型训练过程中,该步骤能使用对抗损失来评估生成图像的质量,对抗损失包括内容对抗损失(Ladvc)和风格对抗损失(Ladvs)。
内容对抗损失:内容对抗损失(Ladvc)是内容生成损失(LcontG)和内容鉴别损失(LcontD)的组合。内容鉴别器(Dcontent)将内容图像纳入其中以评估生成图像,确定生成图像的内容是否与目标图像的内容相匹配,此过程中生成图像与内容图像沿通道维度连接并输入内容鉴别器中。内容对抗损失的损失函数如下:Ladvc=LcontG+LcontD,其中,LcontG表示内容生成损失,LcontD表示内容鉴别损失,Ladvc表示内容对抗损失。
风格对抗损失:风格对抗损失(Ladvs)是风格生成损失(LstyleG)和风格鉴别损失(LstyleD)的组合。风格鉴别器(Dstyle)将风格图像纳入其中以评估生成图像,确定生成图像的字体风格是否与目标图像的字体风格相匹配,此过程中生成图像与风格图像沿通道维度连接并输入风格鉴别器中。风格对抗损失的损失函数如下:Ladvs=LstyleG+LstyleD,其中,LstyleG表示风格生成损失,LstyleD表示风格鉴别损失,Ladvs表示风格对抗损失。
内容生成损失LcontG和内容鉴别损失LcontD的损失函数如下:
,
风格生成损失LstyleG和风格鉴别损失LstyleD的损失函数如下:
,
其中表示在给定数据集中生成图像/>和内容图像Ic的分布下计算期望值,/>表示在给定数据集中目标图像y和内容图像Ic的分布下计算期望值,Dcontent(・)表示以内容鉴别器评估所得结果,Dstyle(・)表示以风格鉴别器评估所得结果。
L1损失:该步骤利用L1损失来量化生成图像和目标图像y之间的像素误差,相应损失函数如下:
,
其中,表示在给定数据集中生成图像/>和目标图像y的分布下计算期望值。
结构对比损失:结构对比损失旨在用于监督生成图像的结构,同时保持其风格的一致性。结构对比损失的损失函数如下:
,
其中,Lsc表示结构对比损失,·表示点积运算,q表示生成图像的查询实例,Sk表示存储字典中与查询实例对应的聚类中心,包括正样本S+和负样本S-,N表示Sk中的样本总数,参数τ是一个温度缩放因子,本实施例中被设置为0.05。
计算结构对比损失时需要将生成图像经所述结构编码器编码得到生成图像的查询实例q,即生成图像的结构特征。每个训练迭代期间,通过查询实例q寻找与之相似结构特征向量的正样本S+,而那些不相似的则视为负样本S−。通过这种方法引导查询实例q朝着正样本S+的方向进行学习,从而在训练过程中最大化图像中字体风格和内容的融合。最后,存储字典根据每次迭代的查询实例q不断更新和调整,这个过程使存储字典能够为每种字体风格创建更准确的结构表示。存储字典更新的计算公式如下:
,
其中Qk表示第k个类别的生成图像编码得到的查询实例的集合,t是动量更新因子,q表示对应生成图像编码得到查询实例,Sk表示存储字典中与查询实例对应的聚类中心。
综上所述,少样本字体生成模型的整体损失的损失函数如下:LSTS-Font=λadv(Ladvc+Ladvs)+λL1L1+λlscLsc,其中,λadv、λL1和λlsc是三个可调节的超参数,分别为对应综合对抗损失、L1损失和结构对比损失的三个权重,LSTS-Font是少样本字体生成模型的整体损失。该步骤中通过训练一边更新存储字典,一边优化所述少样本字体生成模型,让该模型的整体损失LSTS-Font最小化。
步骤三、完成训练后利用训练好的少样本字体生成模型进行字体生成。
向训练好的本字体生成模型中输入对应字符转化前的内容图像和风格图像,风格图像与转化后目标图像的字体风格一致,内容图像通过骨架提取模块处理后得到相应骨架图像,骨架图像、风格图像和内容图像输入训练后的生成器产生相应的生成图像,该生成图像即相应字体风格的生成字体。通过该方法只需要少量目标字体风格的样本即可实现相应字体风格的字体生成。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进,或未经改进将本发明构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。
Claims (9)
1.基于骨架式转移和结构对比学习的少样本字体生成方法,包括下列步骤:
步骤一、建立生成模型,所述生成模型包括生成器和鉴别器;
步骤二、对生成模型进行训练,通过将整体损失最小化来优化少样本字体生成模型;
步骤三、完成训练后利用训练好的字体生成模型进行字体生成;
其特征在于:
所述生成模型为少样本字体生成模型,还包括结构对比学习模块,生成器用于根据内容图像和风格图像生成对应字符具有目标字体风格的生成图像;鉴别器用于在训练时鉴别生成图像的真实性;所述结构对比学习模块将字体结构划分为若干类别,并基于所有的训练图像通过聚类方法计算对应各个类别的聚类中心,将聚类中心存储在字典中;
步骤二中,使用综合对抗损失、L1损失和结构对比损失形成的整体损失来评估生成图像的质量,结构对比损失用于监督生成图像的结构并同时保持生成图像风格的一致性,在训练中根据每次迭代所得的生成图像对字典进行优化更新,同时更新参数让整体损失最小化。
2.根据权利要求1所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:所述步骤二具体包括下列步骤:
S2.1、采集多种字体的汉字字符图像形成训练图像的训练集;
S2.2、进行结构对比学习模块的初始化;
S2.3、通过生成器生成目标字体风格的生成图像;
S2.4、通过综合对抗损失、L1损失和结构对比损失形成的整体损失来评估生成图像的质量并进行相应参数优化。
3.根据权利要求2所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:所述步骤S2.1中,训练图像包括内容图像、目标图像和风格图像,内容图像为用于识别出字符内容的字符图像,目标图像为具有目标字体风格并对应内容图像的图像,风格图像为具有目标字体风格的字符样本,训练图像还包括其他用于产生存储字典的多种字体的字符图像。
4.根据权利要求3所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:所述步骤S2.2中,在训练开始时,先根据每种风格的结构标签将字体结构划分为若干不同的类别,基于这种结构划分的结构编码器用于对所有训练图像进行编码,训练图像经结构编码后能得到相应的结构特征,结构特征表示为U={u11,u12,...,ump},其中U为对应的结构特征的集合,uij为对应训练图像xij的结构特征;其中i=1,2,...,m,i为字体编号,m为结构特征的集合中字体的数量;j=1,2,...,p,j为对应字体的每个结构特征的编号,与对应的字符编号相同,p为相应字体的结构特征数量;编码过程表示为uij=Ef(xij),Ef(・)表示通过结构编码器Ef编码;接着使用所述结构标签计算每个类别的平均值以建立聚类中心,计算聚类中心的公式如下:
,
其中Hk表示第k个聚类,|・|表示每个聚类中实例的数量,Hk包含了所有属于第k个聚类的结构特征uij,而Sk表示第k个聚类中心;建立聚类中心后将这些聚类中心形成的记忆字典存储在存储字典中。
5.根据权利要求4所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:少样本字体生成模型还包括骨架提取模块,生成器进一步包括内容编码器、风格编码器、骨架编码器、骨架-风格转移模块和混合器,所述步骤S2.3中,内容图像经过骨架提取模块提取骨架特征后形成骨架图像,骨架图像、内容图像和风格图像均输入到生成器中,内容编码器处理内容图像得到内容特征,风格编码器处理风格图像得到风格特征,骨架编码器处理骨架图像;风格图像和骨架图像分别输入到风格编码器和骨架编码器后,在风格编码器和骨架编码器的第四层分别生成了第一特征和第二特征,二者通过骨架-风格转移模块融合形成骨架-风格嵌入特征,将内容特征、风格特征和骨架-风格嵌入特征输入到混合器中进行合并融合从而得到生成图像。
6.根据权利要求5所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:所述步骤S2.3中,第一特征和第二特征通过骨架-风格转移模块融合的计算方法如下:fs=m(xs+xsk)・xs+(1-m(xs+xsk))・xsk,其中,m(・)表示通过多尺度通道注意力模块处理以得到的注意力特征,fs为融合形成骨架-风格嵌入特征,xs表示第一特征,xsk表示第二特征,将第一特征和第二特征相加得到特征和,特征和输入多尺度通道注意力模块,经过全局平均池化得到新特征,新特征与特征和均依次经过卷积、GeLU激活、再次卷积处理;将二者处理结果相加后通过Sigmoid函数处理再与开始时输入的特征和相乘从而得到注意力特征;m(xs+xsk)即表示该注意力特征,同时也是介于0到1之间的融合权重,对应第一特征;对应第二特征的融合权重为1-m(xs+xsk)。
7.根据权利要求6所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:所述步骤S2.4中,结构对比损失的损失函数如下:
,
其中,Lsc表示结构对比损失,·表示点积运算,q表示生成图像的查询实例,Sk表示存储字典中与查询实例对应的聚类中心,包括正样本S+和负样本S-,N表示Sk中的样本总数,参数τ是一个温度缩放因子;
计算结构对比损失时需要将生成图像经所述结构编码器编码得到生成图像的查询实例q,每个训练迭代期间,通过查询实例q寻找与之相似结构特征向量的正样本S+,而那些不相似的则视为负样本S−,引导查询实例q朝着正样本S+的方向进行学习,存储字典根据每次迭代的查询实例q不断更新和调整,存储字典更新的计算公式如下:
,
其中Qk表示第k个类别的生成图像编码得到的查询实例的集合,t是动量更新因子。
8.根据权利要求7所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:所述步骤S2.4中,对抗损失包括内容对抗损失和风格对抗损失,内容对抗损失的损失函数如下:Ladvc=LcontG+LcontD,其中,LcontG表示内容生成损失,LcontD表示内容鉴别损失,Ladvc表示内容对抗损失;风格对抗损失的损失函数如下:Ladvs=LstyleG+LstyleD,其中,LstyleG表示风格生成损失,LstyleD表示风格鉴别损失,Ladvs表示风格对抗损失;少样本字体生成模型的整体损失的损失函数如下:LSTS-Font=λadv(Ladvc+Ladvs)+λL1L1+λlscLsc,其中,λadv、λL1和λlsc是三个可调节的超参数,分别为对应综合对抗损失、L1损失和结构对比损失的三个权重,LSTS-Font是少样本字体生成模型的整体损失。
9.根据权利要求6所述的基于骨架式转移和结构对比学习的少样本字体生成方法,其特征在于:L1损失的损失函数如下:,其中,/>表示在给定数据集中生成图像/>和目标图像y的分布下计算期望值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410435132.0A CN118036555B (zh) | 2024-04-11 | 基于骨架式转移和结构对比学习的少样本字体生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410435132.0A CN118036555B (zh) | 2024-04-11 | 基于骨架式转移和结构对比学习的少样本字体生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118036555A true CN118036555A (zh) | 2024-05-14 |
CN118036555B CN118036555B (zh) | 2024-06-25 |
Family
ID=
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160141101A (ko) * | 2015-05-28 | 2016-12-08 | 주식회사 쿠노소프트 | 디지틸화 된 정간보 툴에서 오선보로 변환시 국악기호 표시 방법 |
CN114219701A (zh) * | 2021-11-10 | 2022-03-22 | 华南理工大学 | 敦煌壁画艺术风格转换方法、系统、计算机设备及存储介质 |
CN114742014A (zh) * | 2022-04-12 | 2022-07-12 | 西安理工大学 | 基于关联注意力的少样本文字风格迁移方法 |
JP2022165289A (ja) * | 2021-04-19 | 2022-10-31 | 心茹 朱 | プログラム、情報処理方法及び情報処理装置 |
CN116152374A (zh) * | 2023-02-21 | 2023-05-23 | 陕西师范大学 | 一种汉字字体生成方法 |
CN117058266A (zh) * | 2023-10-11 | 2023-11-14 | 江西师范大学 | 一种基于骨架和轮廓的书法字生成方法 |
CN117078921A (zh) * | 2023-10-16 | 2023-11-17 | 江西师范大学 | 一种基于多尺度边缘信息的自监督小样本汉字生成方法 |
CN117635771A (zh) * | 2023-12-11 | 2024-03-01 | 浙江工业大学 | 一种基于半监督对比学习的场景文本编辑方法和装置 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160141101A (ko) * | 2015-05-28 | 2016-12-08 | 주식회사 쿠노소프트 | 디지틸화 된 정간보 툴에서 오선보로 변환시 국악기호 표시 방법 |
JP2022165289A (ja) * | 2021-04-19 | 2022-10-31 | 心茹 朱 | プログラム、情報処理方法及び情報処理装置 |
CN114219701A (zh) * | 2021-11-10 | 2022-03-22 | 华南理工大学 | 敦煌壁画艺术风格转换方法、系统、计算机设备及存储介质 |
CN114742014A (zh) * | 2022-04-12 | 2022-07-12 | 西安理工大学 | 基于关联注意力的少样本文字风格迁移方法 |
CN116152374A (zh) * | 2023-02-21 | 2023-05-23 | 陕西师范大学 | 一种汉字字体生成方法 |
CN117058266A (zh) * | 2023-10-11 | 2023-11-14 | 江西师范大学 | 一种基于骨架和轮廓的书法字生成方法 |
CN117078921A (zh) * | 2023-10-16 | 2023-11-17 | 江西师范大学 | 一种基于多尺度边缘信息的自监督小样本汉字生成方法 |
CN117635771A (zh) * | 2023-12-11 | 2024-03-01 | 浙江工业大学 | 一种基于半监督对比学习的场景文本编辑方法和装置 |
Non-Patent Citations (2)
Title |
---|
THANAPHON THANUSAN,KARN PATANUKHOM: "Skeleton-based Generative Adversarial Networks for Font Shape Style Transfer Learning text style from some characters and transferring the style to any unseen characters", CVIPPR \'23: PROCEEDINGS OF THE 2023 ASIA CONFERENCE ON COMPUTER VISION, IMAGE PROCESSING AND PATTERN RECOGNITION, 19 June 2023 (2023-06-19) * |
徐杨;: "基于隐式马尔可夫模型的遗传类比学习在中国书法生成中的应用", 武汉大学学报(理学版), no. 01, 24 February 2008 (2008-02-24) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN110427989B (zh) | 汉字骨架自动合成方法及大规模中文字库自动生成方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN110334724B (zh) | 基于lstm的遥感对象自然语言描述及多尺度矫正方法 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113393370A (zh) | 中国书法文字图像风格迁移的方法、系统、智能终端 | |
CN111612051A (zh) | 一种基于图卷积神经网络的弱监督目标检测方法 | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN113591978A (zh) | 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质 | |
CN112364791A (zh) | 一种基于生成对抗网络的行人重识别方法和系统 | |
CN114241191A (zh) | 一种基于跨模态自注意力的无候选框指代表达理解方法 | |
CN114299512A (zh) | 一种基于汉字字根结构的零样本小篆识别方法 | |
CN112990196A (zh) | 基于超参数搜索和二阶段训练的场景文字识别方法及系统 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN112116950A (zh) | 基于深度度量学习的蛋白质折叠识别方法 | |
CN115170403A (zh) | 基于深度元学习和生成对抗网络的字体修复方法及系统 | |
CN117058266B (zh) | 一种基于骨架和轮廓的书法字生成方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN118036555B (zh) | 基于骨架式转移和结构对比学习的少样本字体生成方法 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN114972959B (zh) | 深度学习中样本生成和类内排序损失的遥感图像检索方法 | |
CN114283083B (zh) | 一种基于解耦表示的场景生成模型的美学增强方法 | |
CN111612803A (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN118036555A (zh) | 基于骨架式转移和结构对比学习的少样本字体生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |