CN113095038B - 基于多任务辨别器生成对抗网络的字体生成方法及装置 - Google Patents

基于多任务辨别器生成对抗网络的字体生成方法及装置 Download PDF

Info

Publication number
CN113095038B
CN113095038B CN202110499634.6A CN202110499634A CN113095038B CN 113095038 B CN113095038 B CN 113095038B CN 202110499634 A CN202110499634 A CN 202110499634A CN 113095038 B CN113095038 B CN 113095038B
Authority
CN
China
Prior art keywords
font
style
sample
image
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110499634.6A
Other languages
English (en)
Other versions
CN113095038A (zh
Inventor
郭铭涛
唐勇
王铮
熊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Wangdao Holding Co ltd
Original Assignee
Hangzhou Wangdao Holding Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Wangdao Holding Co ltd filed Critical Hangzhou Wangdao Holding Co ltd
Priority to CN202110499634.6A priority Critical patent/CN113095038B/zh
Publication of CN113095038A publication Critical patent/CN113095038A/zh
Application granted granted Critical
Publication of CN113095038B publication Critical patent/CN113095038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本申请公开了一种基于多任务辨别器生成对抗网络的字体生成方法及装置,将用户创作的字体图像作为风格图像,输入至预先训练得到的生成对抗网络中,得到字库。其中,生成对抗网络的训练过程包括:将训练样本和样本风格图像作为生成器的输入,得到生成器输出的目标图像;将目标图像和样本字体图像输入第一辨别器中,以目标图像的字体内容与样本字体图像的字体内容之间的差异作为训练目标,调整第一辨别器的损失函数;将目标图像和样本风格图像输入第二辨别器中,以目标图像的字体风格与样本风格图像的字体风格之间的差异作为训练目标,调整第二辨别器的损失函数。利用本申请所述方案,能够在保证字体不偏离字体风格的情况下,降低字体生成的错误率。

Description

基于多任务辨别器生成对抗网络的字体生成方法及装置
技术领域
本申请涉及字体创作领域,尤其涉及一种基于多任务辨别器生成对抗网络的字体生成方法及装置。
背景技术
文字是信息传播的主要载体,现在随着我国信息化程度地不断提高,广大网民对于信息的处理需求也进一步扩大。基于汉字的撰写工作,赏心悦目的字体往往能促进作者的创造能力。但是,字体的创作是一个十分复杂的过程,首先,需要创作者设计若干个汉字,然后扩展到所有汉字,并且需要让所有的汉字保持同一种风格。由于汉字的数量十分巨大,故制作一个完整汉字的字库,将会给创作者带来十分巨大的工作量。
目前,通常利用基于pix2pix的字体生成模型,能够辅助创作者进行字体生成,以减少字体创作的工作量。但是,现有的技术方案存在以下缺点:
1、较为容易生成错别字,即字体生成的错误率较高;
2、生成字体的字体风格不够强,偏离了创作者所创作的字体风格。
为此,如何在保证字体不偏离字体风格的情况下,降低字体生成的错误率,成为本领域亟需解决的问题。
发明内容
本申请提供了一种基于多任务辨别器生成对抗网络的字体生成方法及装置,用于在保证字体不偏离字体风格的情况下,降低字体生成的错误率。
为了实现上述目的,本申请提供了以下技术方案:
一种基于多任务辨别器生成对抗网络的字体生成方法,包括:
将预先获取的用户创作的字体图像,作为风格图像;
将所述风格图像输入至预先训练得到的生成对抗网络中,得到所述生成对抗网络输出的字库;
其中,所述生成对抗网络包括生成器、第一辨别器和第二辨别器,所述字库包括字体风格与所述风格图像的字体风格相同、且字体内容互不相同的多个字体图像,所述生成对抗网络的训练过程包括:
将训练样本、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像;所述训练样本包括样本字体图像;
将所述目标图像和所述样本字体图像输入至所述第一辨别器中,以所述目标图像的字体内容与所述样本字体图像的字体内容之间的差异,作为训练目标,调整所述第一辨别器的损失函数、以及所述生成器的参数;
将所述目标图像和所述样本风格图像输入至所述第二辨别器中,以所述目标图像的字体风格与所述样本风格图像的字体风格之间的差异,作为训练目标,调整所述第二辨别器的损失函数、以及所述生成器的参数。
可选的,所述生成器包括第一编码器、第二编码器和解码器;
所述将样本字体图像、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像,包括:
将训练样本作为所述第一编码器的输入,利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量;
将样本风格图像作为所述第二编码器的输入,利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量;
将所述内容特征向量和所述风格特征向量作为所述解码器的输入,利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像。
可选的,所述训练样本包括字体内容相同、且字体风格不同的多个样本字体图像;
所述利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量,包括:
利用所述第一编码器执行下述步骤:
对所述字体内容相同、且字体风格不同的多个样本字体图像进行字体内容特征提取,得到多个内容特征向量;
计算各个所述内容特征向量的平均数,得到第一特征向量;
将所述第一特征向量作为所述第一编码器对外输出的内容特征向量。
可选的,所述样本风格图像的数量为多个;
所述利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量,包括:
利用所述第二编码器执行下述步骤:
对多个所述样本风格图像进行字体风格特征提取,得到多个风格特征向量;
对各个所述风格特征向量进行全局池化;
计算各个全局池化后的所述风格特征向量的平均数,得到第二特征向量;
将所述第二特征向量作为所述第二编码器对外输出的风格特征向量。
可选的,所述利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像,包括:
利用所述解码器执行下述步骤:
分别对所述内容特征向量和所述风格特征向量进行自适应归一化;
将自适应归一化后的所述内容特征向量、以及自适应归一化后的所述风格特征向量进行合并,得到第三特征向量;
对所述第三特征向量进行反变换,得到所述生成器对外输出的目标图像。
一种基于多任务辨别器生成对抗网络的字体生成装置,包括:
训练单元,用于预先训练生成对抗网络;其中,所述生成对抗网络包括生成器、第一辨别器和第二辨别器,所述生成对抗网络的训练过程包括:将训练样本、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像;所述训练样本包括样本字体图像;将所述目标图像和所述样本字体图像输入至所述第一辨别器中,以所述目标图像的字体内容与所述样本字体图像的字体内容之间的差异,作为训练目标,调整所述第一辨别器的损失函数、以及所述生成器的参数;将所述目标图像和所述样本风格图像输入至所述第二辨别器中,以所述目标图像的字体风格与所述样本风格图像的字体风格之间的差异,作为训练目标,调整所述第二辨别器的损失函数、以及所述生成器的参数;
获取单元,用于将预先获取的用户创作的字体图像,作为风格图像;
输入单元,用于将所述风格图像输入至预先训练得到的所述生成对抗网络中,得到所述生成对抗网络输出的字库;所述字库包括字体风格与所述风格图像的字体风格相同、且字体内容互不相同的多个字体图像。
可选的,所述生成器包括第一编码器、第二编码器和解码器;
所述训练单元用于将样本字体图像、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像,包括:
将训练样本作为所述第一编码器的输入,利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量;
将样本风格图像作为所述第二编码器的输入,利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量;
将所述内容特征向量和所述风格特征向量作为所述解码器的输入,利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像。
可选的,所述训练样本包括字体内容相同、且字体风格不同的多个样本字体图像;
所述训练单元用于利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量,包括:
所述训练单元利用所述第一编码器执行下述步骤:
对所述字体内容相同、且字体风格不同的多个样本字体图像进行字体内容特征提取,得到多个内容特征向量;
计算各个所述内容特征向量的平均数,得到第一特征向量;
将所述第一特征向量作为所述第一编码器对外输出的内容特征向量。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的基于多任务辨别器生成对抗网络的字体生成方法。
一种基于多任务辨别器生成对抗网络的字体生成设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的基于多任务辨别器生成对抗网络的字体生成方法。
本申请提供的技术方案,将预先获取的用户创作的字体图像,作为风格图像。将风格图像输入至预先训练得到的生成对抗网络中,得到生成对抗网络输出的字库,其中,生成对抗网络包括生成器、第一辨别器和第二辨别器,字库包括字体风格与风格图像的字体风格相同、且字体内容互不相同的多个字体图像,生成对抗网络的训练过程包括:将训练样本、以及样本风格图像作为生成器的输入,得到生成器输出的目标图像,训练样本包括样本字体图像;将目标图像和样本字体图像输入至第一辨别器中,以目标图像的字体内容与样本字体图像的字体内容之间的差异,作为训练目标,调整第一辨别器的损失函数、以及生成器的参数;将目标图像和样本风格图像输入至第二辨别器中,以目标图像的字体风格与样本风格图像的字体风格之间的差异,作为训练目标,调整第二辨别器的损失函数、以及生成器的参数。利用本申请所述方案,能够在保证字体不偏离字体风格的情况下,降低字体生成的错误率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的一种基于多任务辨别器生成对抗网络的字体生成方法的示意图;
图1b为本申请实施例提供的一种解码器的实现原理示意图;
图1c为本申请实施例提供的一种生成对抗网络的参数调整的示意图;
图2为本申请实施例提供的另一种基于多任务辨别器生成对抗网络的字体生成方法的示意图;
图3为本申请实施例提供的一种基于多任务辨别器生成对抗网络的字体生成装置的架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1a所示,为本申请实施例提供的一种基于多任务辨别器生成对抗网络的字体生成方法的示意图,包括如下步骤:
S101:预先获取多个不同字体风格的样本字库。
其中,样本字库包括但不限于为:楷体字库、宋体字库、以及仿宋体字库等汉字字体库。
S102:从各个样本字库所包含的样本字体图像中,提取字体内容相同、且字体风格不同的多个样本字体图像,作为训练样本。
其中,字体内容相同、且字体风格不同的多个样本字体图像,具体的,从楷体字库、宋体字库、以及仿宋体字库中,分别提取出“我”(即字体内容)的字体图像,将多个“我”字体图像,作为训练样本。
S103:将预设样本字库中所包含的字体图像,作为样本风格图像。
其中,样本风格图像的数量可由技术人员根据实际情况进行设置。
S104:获取预设的生成对抗网络的生成器和辨别器。
其中,生成器采用编码器-解码器结构,在本申请实施例中,生成器包括字体内容编码器、字体风格编码器、以及解码器,辨别器包括字体内容辨别器和字体风格辨别器。
字体内容编码器包括用于进行下采样的残差模块,且残差模块的数量为四个。具体的,字体内容编码器的表达式,如公式(1)和(2)所示。
Fc=Ec(Xc) (1)
在公式(1)和(2)中,Fc代表训练样本被编码后所得到的内容特征张量(其内容特征张量的形状为),C代表内容特征张量的通道数,Ec代表字体内容编码器(可以看作为一个目标函数),Xc代表训练样本(即字体内容相同、且字体风格不同的多个字体图像所组成的张量,其形状为n×H×W×3),/>代表字体内容编码器输出的内容特征向量,n代表训练样本中所包含的字体图像的数量,i代表训练样本中所包含的字体图像的索引,H代表字体图像的高度,W代表字体图像的宽度。
需要说明的是,现有技术所提及的字体生成模型,在对字体图像编码的过程中会用到多层下采样方法,字体图像中的个别细节特征会被过滤掉,因此,当字体笔画比较多的(结构复杂)的情况下,很容易造成小笔画的字体图像的丢失。此外,现有技术只能对一个字体图像进行特征提取,而忽略了字体本身携带的语意信息。因此,在编码过程中,单个字体图像很容易丢失局部的内容信息,从而导致生成错误的字。
因此,为了降低字体生成的错误率,可以利用字体内容编码器执行下述步骤:对字体内容相同、且字体风格不同的多个样本字体图像进行字体内容特征提取,得到多个内容特征向量;计算各个内容特征向量的平均数,得到第一特征向量;将第一特征向量作为字体内容编码器对外输出的内容特征向量。
字体风格编码器的结构与字体内容编码器的结构类似,包括用于进行下采样的残差模块,且残差模块的数量也为四个。具体的,字体风格编码器的表达式,如公式(3)、(4)和(5)所示。
Fs=Es(Rs) (3)
在公式(3)、(4)和(5)中,Fs代表样本风格图像被编码后所得到的风格特征张量(其风格特征张量的形状为i×H×W×C),C代表风格特征张量的通道数,i和j均为预设系数,Es代表字体风格编码器(可以看作为一个目标函数),Rs代表样本风格图像,代表字体风格编码器输出的风格特征向量,Vs代表新的风格特征向量。公式(4)用于表征:对/>求平均数。公式(5)用于表征:对Fs进行全局池化,使得Fs的形状压缩为n×1×1×C,得到新的风格特征向量。
需要说明的是,由公式(4)和(5)可知,字体风格编码器用于:对多个样本风格图像进行字体风格特征提取,得到多个风格特征向量;对各个风格特征向量进行全局池化;计算各个全局池化后的风格特征向量的平均数,得到第二特征向量;将第二特征向量作为字体风格编码器对外输出的风格特征向量。在本申请实施例中,将第二特征向量作为字体风格编码器对外输出的风格特征向量,能够准确表征样本风格图像的字体风格。
解码器包括用于进行上采样的残差模块,且残差模块的数量为四个。具体的,解码器的表达式如公式(6)、(7)和(8)所示。
在公式(6)、(7)和(8)中,T代表解码器输出的目标图像,Decoder代表解码器(可以看作为一个目标函数),Vs (1)和Vs (2)均为从Vs平分得到风格特征向量,C代表目标图像的通道数,i和j均为预设系数,μ代表预设的均值,σ代表预设的标准差,Fd代表目标图像。在本申请实施例中,公式(8)用于表征自适应归一化方法,具体的,解码器用于:分别对内容特征向量和风格特征向量进行自适应归一化;将自适应归一化后的内容特征向量、以及自适应归一化后的风格特征向量进行合并,得到第三特征向量;对第三特征向量进行反变换,得到生成器对外输出的目标图像。
需要说明的是,由于现有技术为基于pix2pix的字体生成模型,该模型只能针对两个数据域进行字体生成,所以新的字体样本(即上述提及的样本风格图像)需要重新训练新的模型,效率十分低下。为此,本实施例借鉴了实时风格迁移的方法,即在解码器中运用公式(7)所示的自适应归一化方法,从而能够将字体风格和字体内容融合到一起,使得生成器输出的具有该种字体风格的字体图像,具体的,解码器的实现原理,可参见图1b所示。
可选的,字体内容辨别器的结构和字体风格辨别器的结构相同,均可以为卷积神经网络。
S105:将训练样本作为字体内容编码器的输入,利用字体内容编码器对训练样本进行字体内容特征提取,得到内容特征向量。
S106:将样本风格图像作为字体风格编码器的输入,利用字体风格编码器对样本风格图像进行字体风格特征提取,得到风格特征向量。
S107:将内容特征向量和风格特征向量作为解码器的输入,利用解码器对内容特征向量和风格特征向量进行融合,得到生成器对外输出的目标图像。
其中,目标图像包括目标内容图像和目标风格图像。
S108:将目标内容图像和训练样本输入至字体内容辨别器中,以目标内容图像的字体内容、以及训练样本的字体内容之间的差异作为训练目标,调整字体内容辨别器的第一损失函数、以及生成器的参数。
其中,第一损失函数如公式(9)所示。
Lc=max(0,1+Dc(G(Xc,Rs))+max(0,1-Dc(Tc)) (9)
在公式(9)中,Dc代表字体内容辨别器,G代表生成器,Xc代表训练样本,Rs代表样本风格图像,Tc代表目标内容图像。
需要说明的是,Tc也可以理解为生成器期望生成的字体内容,例如,生成器要生成“我”这个字,Tc可以利用任意字体风格的“我”来表示,目的是让生成器生成的样本(即目标内容图像),其字体内容的分布更接近“我”这个字,从而降低字体生成的错误率。
需要强调的是,生成器的参数包括字体内容编码器、字体风格编码器、以及解码器的参数。
S109:将目标风格图像和样本风格图像输入至字体风格辨别器中,以目标风格图像的字体风格、以及样本风格图像的字体风格之间的差异作为训练目标,调整字体风格辨别器的第二损失函数、以及生成器的参数。
其中,第二损失函数如公式(10)所示。
Ls=max(0,1+Ds(G(Xc,Rs))+max(0,1-Ds(Ts)) (10)
在公式(10)中,Ds代表字体风格辨别器,G代表生成器,Xc代表训练样本,Rs代表样本风格图像,Ts代表目标风格图像。
需要说明的是,Ts也可以理解为生成器期望生成的字体风格,例如,生成器要生成楷体风格的字体,Ts可以利用楷体中的任何一个字体表示,目的是让生成器生成的样本(即目标风格图像),其字体风格的分布更接近楷体,来增强楷体风格。
需要强调的是,传统基于pix2pix的字体生成模型,只是简单地计算了生成样本(即目标风格图像)和真实样本(样本风格图像)之间分布的距离,并没有真正从字体风格上进行分布的计算,然而,基于本实施例所示的字体内容辨别器和字体风格辨别器,不仅计算了生成样本和真实样本之间的距离,还从字体风格的角度对生成器的参数进行了优化调整,从而确保生成器生成的字体风格的分布更趋近于样本风格图像的字体风格。
S110:在第一损失函数的取值和第二损失函数的取值的和值,小于预设阈值的情况下,确定生成对抗网络训练完成。
其中,生成对抗网络的调整第一损失函数、第二损失函数、以及生成器的参数的实现原理,可参见图1c所示。
S111:将预先获取的用户创作的字体图像,作为风格图像。
其中,风格图像的数量可以为多个。
S112:将风格图像输入至生成对抗网络中,得到生成对抗网络输出的字库。
其中,字库包括字体风格与风格图像的字体风格相同、且字体内容互不相同的多个字体图像。在本申请实施例中,字库中所包含字体图像的数量,与样本字库所包含的样本字体图像的数量相同。
综上所述,利用本实施例所述方案,能够在保证字体不偏离字体风格的情况下,降低字体生成的错误率。
需要说明的是,上述实施例提及的S101,为本申请所述基于多任务辨别器生成对抗网络的字体生成方法的一种可选的实现方式。此外,上述实施例提及的S103,也为本申请所述基于多任务辨别器生成对抗网络的字体生成方法的一种可选的实现方式。为此,上述实施例提及的流程可以概括为图2所示的方法。
如图2所示,为本申请实施例提供的另一种基于多任务辨别器生成对抗网络的字体生成方法的示意图,包括如下步骤:
S201:将预先获取的用户创作的字体图像,作为风格图像。
S202:将风格图像输入至预先训练得到的生成对抗网络中,得到生成对抗网络输出的字库。
其中,生成对抗网络包括生成器、第一辨别器和第二辨别器,生成器包括第一编码器、第二编码器和解码器,字库包括字体风格与风格图像的字体风格相同、且字体内容互不相同的多个字体图像。
需要说明的是,上述实施例提及的字体内容编码器为所述第一编码器的一种具体表现形式,字体风格编码器为所述第二编码器的一种具体表现形式,字体内容辨别器为所述第一辨别器的一种具体表现形式,字体风格辨别器为所述第二辨别器的一种具体表现形式。
在本申请实施例中,生成对抗网络的训练过程包括:
1、将训练样本、以及样本风格图像作为生成器的输入,得到生成器输出的目标图像,其中,训练样本包括样本字体图像。
2、将目标图像和样本字体图像输入至第一辨别器中,以目标图像的字体内容与样本字体图像的字体内容之间的差异,作为训练目标,调整第一辨别器的损失函数、以及生成器的参数。
3、将目标图像和样本风格图像输入至第二辨别器中,以目标图像的字体风格与样本风格图像的字体风格之间的差异,作为训练目标,调整第二辨别器的损失函数、以及生成器的参数。
综上所述,利用本实施例所述方案,能够在保证字体不偏离字体风格的情况下,降低字体生成的错误率。
与上述本申请实施例提供的基于多任务辨别器生成对抗网络的字体生成方法相对应,本申请实施例还提供了一种基于多任务辨别器生成对抗网络的字体生成装置。
如图3所示,为本申请实施例提供的一种基于多任务辨别器生成对抗网络的字体生成装置的架构示意图,包括:
训练单元100,用于预先训练生成对抗网络,其中,生成对抗网络包括生成器、第一辨别器和第二辨别器,生成对抗网络的训练过程包括:将训练样本、以及样本风格图像作为生成器的输入,得到生成器输出的目标图像;训练样本包括样本字体图像;将目标图像和样本字体图像输入至第一辨别器中,以目标图像的字体内容与样本字体图像的字体内容之间的差异,作为训练目标,调整第一辨别器的损失函数、以及生成器的参数;将目标图像和样本风格图像输入至第二辨别器中,以目标图像的字体风格与样本风格图像的字体风格之间的差异,作为训练目标,调整第二辨别器的损失函数、以及生成器的参数。
其中,生成器包括第一编码器、第二编码器和解码器。
训练单元100用于将样本字体图像、以及样本风格图像作为生成器的输入,得到生成器输出的目标图像的具体过程,包括:将训练样本作为第一编码器的输入,利用第一编码器对训练样本进行字体内容特征提取,得到内容特征向量;将样本风格图像作为第二编码器的输入,利用第二编码器对样本风格图像进行字体风格特征提取,得到风格特征向量;将内容特征向量和风格特征向量作为解码器的输入,利用解码器对内容特征向量和风格特征向量进行融合,得到生成器对外输出的目标图像。
训练样本包括字体内容相同、且字体风格不同的多个样本字体图像。
训练单元100用于利用第一编码器对训练样本进行字体内容特征提取,得到内容特征向量的具体过程,包括:训练单元100利用第一编码器执行下述步骤:对字体内容相同、且字体风格不同的多个样本字体图像进行字体内容特征提取,得到多个内容特征向量;计算各个内容特征向量的平均数,得到第一特征向量;将第一特征向量作为第一编码器对外输出的内容特征向量。
样本风格图像的数量为多个。
训练单元100利用第二编码器对样本风格图像进行字体风格特征提取,得到风格特征向量的具体过程,包括:训练单元100利用第二编码器执行下述步骤:对多个样本风格图像进行字体风格特征提取,得到多个风格特征向量;对各个风格特征向量进行全局池化;计算各个全局池化后的风格特征向量的平均数,得到第二特征向量;将第二特征向量作为第二编码器对外输出的风格特征向量。
训练单元100利用解码器对内容特征向量和风格特征向量进行融合,得到生成器对外输出的目标图像的具体过程,包括:训练单元100利用解码器执行下述步骤:分别对内容特征向量和风格特征向量进行自适应归一化;将自适应归一化后的内容特征向量、以及自适应归一化后的风格特征向量进行合并,得到第三特征向量;对第三特征向量进行反变换,得到生成器对外输出的目标图像。
获取单元200,用于将预先获取的用户创作的字体图像,作为风格图像。
输入单元300,用于将风格图像输入至预先训练得到的生成对抗网络中,得到生成对抗网络输出的字库;字库包括字体风格与风格图像的字体风格相同、且字体内容互不相同的多个字体图像。
综上所述,利用本实施例所述方案,能够在保证字体不偏离字体风格的情况下,降低字体生成的错误率。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本申请提供的基于多任务辨别器生成对抗网络的字体生成方法。
本申请还提供了一种基于多任务辨别器生成对抗网络的字体生成设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本申请提供的基于多任务辨别器生成对抗网络的字体生成方法,包括如下步骤:
将预先获取的用户创作的字体图像,作为风格图像;
将所述风格图像输入至预先训练得到的生成对抗网络中,得到所述生成对抗网络输出的字库;
其中,所述生成对抗网络包括生成器、第一辨别器和第二辨别器,所述字库包括字体风格与所述风格图像的字体风格相同、且字体内容互不相同的多个字体图像,所述生成对抗网络的训练过程包括:
将训练样本、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像;所述训练样本包括样本字体图像;
将所述目标图像和所述样本字体图像输入至所述第一辨别器中,以所述目标图像的字体内容与所述样本字体图像的字体内容之间的差异,作为训练目标,调整所述第一辨别器的损失函数、以及所述生成器的参数;
将所述目标图像和所述样本风格图像输入至所述第二辨别器中,以所述目标图像的字体风格与所述样本风格图像的字体风格之间的差异,作为训练目标,调整所述第二辨别器的损失函数、以及所述生成器的参数。
可选的,所述生成器包括第一编码器、第二编码器和解码器;
所述将样本字体图像、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像,包括:
将训练样本作为所述第一编码器的输入,利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量;
将样本风格图像作为所述第二编码器的输入,利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量;
将所述内容特征向量和所述风格特征向量作为所述解码器的输入,利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像。
可选的,所述训练样本包括字体内容相同、且字体风格不同的多个样本字体图像;
所述利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量,包括:
利用所述第一编码器执行下述步骤:
对所述字体内容相同、且字体风格不同的多个样本字体图像进行字体内容特征提取,得到多个内容特征向量;
计算各个所述内容特征向量的平均数,得到第一特征向量;
将所述第一特征向量作为所述第一编码器对外输出的内容特征向量。
可选的,所述样本风格图像的数量为多个;
所述利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量,包括:
利用所述第二编码器执行下述步骤:
对多个所述样本风格图像进行字体风格特征提取,得到多个风格特征向量;
对各个所述风格特征向量进行全局池化;
计算各个全局池化后的所述风格特征向量的平均数,得到第二特征向量;
将所述第二特征向量作为所述第二编码器对外输出的风格特征向量。
可选的,所述利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像,包括:
利用所述解码器执行下述步骤:
分别对所述内容特征向量和所述风格特征向量进行自适应归一化;
将自适应归一化后的所述内容特征向量、以及自适应归一化后的所述风格特征向量进行合并,得到第三特征向量;
对所述第三特征向量进行反变换,得到所述生成器对外输出的目标图像。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于多任务辨别器生成对抗网络的字体生成方法,其特征在于,包括:
将预先获取的用户创作的字体图像,作为风格图像;
将所述风格图像输入至预先训练得到的生成对抗网络中,得到所述生成对抗网络输出的字库;
其中,所述生成对抗网络包括生成器、第一辨别器和第二辨别器,所述字库包括字体风格与所述风格图像的字体风格相同、且字体内容互不相同的多个字体图像,所述生成器包括第一编码器、第二编码器和解码器,所述第一编码器为字体内容编码器,所述第二编码器为字体风格编码器,所述字体内容编码器输出内容特征向量,所述字体风格编码器输出的风格特征向量;
所述解码器用于:分别对所述内容特征向量和所述风格特征向量进行自适应归一化,将自适应归一化后的内容特征向量、以及自适应归一化后的风格特征向量进行合并,得到第三特征向量,对所述第三特征向量进行反变换,得到生成器对外输出的目标图像;
所述生成对抗网络的训练过程包括:
将训练样本、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像;所述训练样本包括样本字体图像;
将所述目标图像和所述样本字体图像输入至所述第一辨别器中,以所述目标图像的字体内容与所述样本字体图像的字体内容之间的差异,作为训练目标,调整所述第一辨别器的损失函数、以及所述生成器的参数;
将所述目标图像和所述样本风格图像输入至所述第二辨别器中,以所述目标图像的字体风格与所述样本风格图像的字体风格之间的差异,作为训练目标,调整所述第二辨别器的损失函数、以及所述生成器的参数。
2.根据权利要求1所述的方法,其特征在于,所述将训练样本、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像,包括:
将训练样本作为所述第一编码器的输入,利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量;
将样本风格图像作为所述第二编码器的输入,利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量;
将所述内容特征向量和所述风格特征向量作为所述解码器的输入,利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像。
3.根据权利要求2所述的方法,其特征在于,所述训练样本包括字体内容相同、且字体风格不同的多个样本字体图像;
所述利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量,包括:
利用所述第一编码器执行下述步骤:
对所述字体内容相同、且字体风格不同的多个样本字体图像进行字体内容特征提取,得到多个内容特征向量;
计算各个所述内容特征向量的平均数,得到第一特征向量;
将所述第一特征向量作为所述第一编码器对外输出的内容特征向量。
4.根据权利要求2所述的方法,其特征在于,所述样本风格图像的数量为多个;
所述利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量,包括:
利用所述第二编码器执行下述步骤:
对多个所述样本风格图像进行字体风格特征提取,得到多个风格特征向量;
对各个所述风格特征向量进行全局池化;
计算各个全局池化后的所述风格特征向量的平均数,得到第二特征向量;
将所述第二特征向量作为所述第二编码器对外输出的风格特征向量。
5.根据权利要求2所述的方法,其特征在于,所述利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像,包括:
利用所述解码器执行下述步骤:
分别对所述内容特征向量和所述风格特征向量进行自适应归一化;
将自适应归一化后的所述内容特征向量、以及自适应归一化后的所述风格特征向量进行合并,得到第三特征向量;
对所述第三特征向量进行反变换,得到所述生成器对外输出的目标图像。
6.一种基于多任务辨别器生成对抗网络的字体生成装置,其特征在于,包括:
训练单元,用于预先训练生成对抗网络;其中,所述生成对抗网络包括生成器、第一辨别器和第二辨别器,所述生成器包括第一编码器、第二编码器和解码器,所述第一编码器为字体内容编码器,所述第二编码器为字体风格编码器,所述字体内容编码器输出内容特征向量,所述字体风格编码器输出的风格特征向量;
所述解码器用于:分别对所述内容特征向量和所述风格特征向量进行自适应归一化,将自适应归一化后的内容特征向量、以及自适应归一化后的风格特征向量进行合并,得到第三特征向量,对所述第三特征向量进行反变换,得到生成器对外输出的目标图像;
所述生成对抗网络的训练过程包括:将训练样本、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像;所述训练样本包括样本字体图像;将所述目标图像和所述样本字体图像输入至所述第一辨别器中,以所述目标图像的字体内容与所述样本字体图像的字体内容之间的差异,作为训练目标,调整所述第一辨别器的损失函数、以及所述生成器的参数;将所述目标图像和所述样本风格图像输入至所述第二辨别器中,以所述目标图像的字体风格与所述样本风格图像的字体风格之间的差异,作为训练目标,调整所述第二辨别器的损失函数、以及所述生成器的参数;
获取单元,用于将预先获取的用户创作的字体图像,作为风格图像;
输入单元,用于将所述风格图像输入至预先训练得到的所述生成对抗网络中,得到所述生成对抗网络输出的字库;所述字库包括字体风格与所述风格图像的字体风格相同、且字体内容互不相同的多个字体图像。
7.根据权利要求6所述的装置,其特征在于,所述训练单元用于将训练样本、以及样本风格图像作为所述生成器的输入,得到所述生成器输出的目标图像,包括:
将训练样本作为所述第一编码器的输入,利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量;
将样本风格图像作为所述第二编码器的输入,利用所述第二编码器对所述样本风格图像进行字体风格特征提取,得到风格特征向量;
将所述内容特征向量和所述风格特征向量作为所述解码器的输入,利用所述解码器对所述内容特征向量和所述风格特征向量进行融合,得到所述生成器对外输出的目标图像。
8.根据权利要求7所述的装置,其特征在于,所述训练样本包括字体内容相同、且字体风格不同的多个样本字体图像;
所述训练单元用于利用所述第一编码器对所述训练样本进行字体内容特征提取,得到内容特征向量,包括:
所述训练单元利用所述第一编码器执行下述步骤:
对所述字体内容相同、且字体风格不同的多个样本字体图像进行字体内容特征提取,得到多个内容特征向量;
计算各个所述内容特征向量的平均数,得到第一特征向量;
将所述第一特征向量作为所述第一编码器对外输出的内容特征向量。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1-5任一所述的基于多任务辨别器生成对抗网络的字体生成方法。
10.一种基于多任务辨别器生成对抗网络的字体生成设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-5任一所述的基于多任务辨别器生成对抗网络的字体生成方法。
CN202110499634.6A 2021-05-08 2021-05-08 基于多任务辨别器生成对抗网络的字体生成方法及装置 Active CN113095038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110499634.6A CN113095038B (zh) 2021-05-08 2021-05-08 基于多任务辨别器生成对抗网络的字体生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110499634.6A CN113095038B (zh) 2021-05-08 2021-05-08 基于多任务辨别器生成对抗网络的字体生成方法及装置

Publications (2)

Publication Number Publication Date
CN113095038A CN113095038A (zh) 2021-07-09
CN113095038B true CN113095038B (zh) 2024-04-16

Family

ID=76664282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110499634.6A Active CN113095038B (zh) 2021-05-08 2021-05-08 基于多任务辨别器生成对抗网络的字体生成方法及装置

Country Status (1)

Country Link
CN (1) CN113095038B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792853B (zh) * 2021-09-09 2023-09-05 北京百度网讯科技有限公司 字符生成模型的训练方法、字符生成方法、装置和设备
CN114386370A (zh) * 2022-01-14 2022-04-22 北京有竹居网络技术有限公司 一种字体生成方法、装置及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN108304357A (zh) * 2018-01-31 2018-07-20 北京大学 一种基于字体流形的中文字库自动生成方法
GB201903972D0 (en) * 2018-06-15 2019-05-08 Adobe Inc Synthesizing new font glyphs from partial observations
CN110211203A (zh) * 2019-06-10 2019-09-06 大连民族大学 基于条件生成对抗网络的汉字字体的方法
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN110570481A (zh) * 2019-07-31 2019-12-13 中国地质大学(武汉) 基于风格迁移的书法字库自动修复方法及系统
CN111341294A (zh) * 2020-02-28 2020-06-26 电子科技大学 将文本转换为指定风格语音的方法
CN111553246A (zh) * 2020-04-15 2020-08-18 山东大学 基于多任务对抗学习网络的汉字风格迁移方法及系统
WO2021022752A1 (zh) * 2019-08-07 2021-02-11 深圳先进技术研究院 一种多模态三维医学影像融合方法、系统及电子设备
CN112633430A (zh) * 2020-12-25 2021-04-09 同济大学 一种中文字体风格迁移方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN108304357A (zh) * 2018-01-31 2018-07-20 北京大学 一种基于字体流形的中文字库自动生成方法
GB201903972D0 (en) * 2018-06-15 2019-05-08 Adobe Inc Synthesizing new font glyphs from partial observations
CN110211203A (zh) * 2019-06-10 2019-09-06 大连民族大学 基于条件生成对抗网络的汉字字体的方法
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN110570481A (zh) * 2019-07-31 2019-12-13 中国地质大学(武汉) 基于风格迁移的书法字库自动修复方法及系统
WO2021022752A1 (zh) * 2019-08-07 2021-02-11 深圳先进技术研究院 一种多模态三维医学影像融合方法、系统及电子设备
CN111341294A (zh) * 2020-02-28 2020-06-26 电子科技大学 将文本转换为指定风格语音的方法
CN111553246A (zh) * 2020-04-15 2020-08-18 山东大学 基于多任务对抗学习网络的汉字风格迁移方法及系统
CN112633430A (zh) * 2020-12-25 2021-04-09 同济大学 一种中文字体风格迁移方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Separating Style and Content for Generalized Style Transfer;Yexun Zhang 等;《 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018》;8447-8455 *
基于CycleGAN的字体风格转移算法及其应用;张国洲;《中国优秀硕士学位论文全文数据库-信息科技辑》(第02期);I138-1226 *
基于条件生成对抗网络的蒙古文字体风格迁移模型;李进;高静;陈俊杰;王永军;;中文信息学报(第04期);55-59+68 *
李进 ; 高静 ; 陈俊杰 ; 王永军 ; .基于条件生成对抗网络的蒙古文字体风格迁移模型.中文信息学报.2020,(第04期),55-59+68. *

Also Published As

Publication number Publication date
CN113095038A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Wang et al. Deepfont: Identify your font from an image
CN113095038B (zh) 基于多任务辨别器生成对抗网络的字体生成方法及装置
Zhao et al. Feature quantization improves gan training
CN111046178B (zh) 一种文本序列生成方法及其系统
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN108664465A (zh) 一种自动生成文本方法以及相关装置
CN114821271B (zh) 模型训练方法、图像描述生成方法、装置及存储介质
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN114332466B (zh) 图像语义分割网络持续学习方法、系统、设备及存储介质
CN108595426B (zh) 基于汉字字形结构性信息的词向量优化方法
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
Xie et al. Learning cycle-consistent cooperative networks via alternating MCMC teaching for unsupervised cross-domain translation
CN115424013A (zh) 模型的训练方法、图像处理方法和设备、介质
Li et al. Diversified text-to-image generation via deep mutual information estimation
Li et al. Aognets: Deep and-or grammar networks for visual recognition
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
US20220101145A1 (en) Training energy-based variational autoencoders
Wei et al. Dialogpaint: A dialog-based image editing model
Wang et al. Deep learning for font recognition and retrieval
CN116363737B (zh) 一种人脸图像属性编辑方法、系统、电子设备及存储介质
Sun et al. Hiabp: Hierarchical initialized abp for unsupervised representation learning
CN116805046B (zh) 一种基于文本标签生成3d人体动作的方法
KR102608266B1 (ko) 이미지 생성 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant