CN115828848A - 字体生成模型的训练方法、装置、设备及存储介质 - Google Patents

字体生成模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115828848A
CN115828848A CN202111082877.6A CN202111082877A CN115828848A CN 115828848 A CN115828848 A CN 115828848A CN 202111082877 A CN202111082877 A CN 202111082877A CN 115828848 A CN115828848 A CN 115828848A
Authority
CN
China
Prior art keywords
font
sample
style
image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111082877.6A
Other languages
English (en)
Inventor
张克俊
张瑞
凌永根
陈堉东
许伟欣
陈妍
张正友
李英明
王柏林
吴泳林
李一非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Zhejiang University ZJU
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Shenzhen Tencent Computer Systems Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202111082877.6A priority Critical patent/CN115828848A/zh
Publication of CN115828848A publication Critical patent/CN115828848A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Controls And Circuits For Display Device (AREA)

Abstract

本申请公开了一种字体生成模型的训练方法、装置、设备及存储介质,属于机器学习领域。所述方法包括:获取n种样本字体的字体风格图像、第一文字的字体内容图像和第一文字在n种样本字体下的样本文字图像;调用字体生成模型对n种样本字体的字体风格图像中的风格特征进行学习,以及对第一文字的字体内容图像中的内容特征进行学习,从而预测出第一文字在n种样本字体下的预测文字图像;根据n种样本字体下的预测文字图像与n种样本字体下的样本文字图像之间的n组误差,对字体生成模型进行训练。本申请能够使字体生成模型同时适应多种字体,强化字体生成模型对不同字体的字体细节差异方面的特征提取能力,使得字体生成的质量提升且稳定性提高。

Description

字体生成模型的训练方法、装置、设备及存储介质
技术领域
本申请涉及机器学习领域,特别涉及一种字体生成模型的训练方法、装置、设备及存储介质。
背景技术
个性化字体已应用在各类场景中,例如在即时通信应用程序中,用户能够选择使用的个性化字体,并使用选择的个性化字体与其他用户进行通信。
机器学习模型能够基于少量自定义字体的文字图像,生成大量与该自定义字体的字体风格相同且文字不同的其它文字图像,从而形成该自定义字体的字体集合。在相关技术中,通过编码器-混合器-解码器(Encoder-Mixer-Decoder,EMD)能够实现上述内容。EMD包括字体风格编码器、字体内容编码器、混合器以及解码器。通过字体风格编码器能够提取第一文字图像的风格特征,通过字体内容编码器能够提取第二文字图像的内容特征。其中,风格特征用于反映第一文字图像中的文字的字体风格,内容特征用于反映第二文字图像中的文字的内容。之后EMD通过混合器混合风格特征以及内容特征,再通过解码器处理混合器混合的特征,从而预测出生成的文字图像。生成的文字图像中的文字的字体由第一文字图像确定,生成的文字图像中的文字的内容由第二文字图像确定。根据EMD,通过少量同一自定义字体的第一文字图像以及大量的不同文字的第二文字图像,能够生成大量具有相同字体且不同文字的文字图像。
在使用EMD生成不同字体的字体图像时,由于EMD的字体内容编码器处理新的字体风格的能力较弱,存在针对新的字体风格生成的字体图像中字体内容不能适应新的字体风格的问题,导致字体生成的质量不高且不稳定。
发明内容
本申请提供了一种字体生成模型的训练方法、装置、设备及存储介质,可以使字体生成的质量提升且稳定性提高。所述技术方案如下:
根据本申请的一方面,提供了一种字体生成模型的训练方法,所述方法包括:
获取n种样本字体的字体风格图像、第一文字的字体内容图像和所述第一文字在所述n种样本字体下的样本文字图像,所述n大于或等于2;
调用所述字体生成模型对所述n种样本字体的字体风格图像中的风格特征进行学习,以及对所述第一文字的字体内容图像中的内容特征进行学习,从而预测出所述第一文字在所述n种样本字体下的预测文字图像;
根据所述n种样本字体下的预测文字图像与所述n种样本字体下的样本文字图像之间的n组误差,对所述字体生成模型进行训练;
其中,所述n组误差中的每组误差是所述第一文字在同一种样本字体下的所述预测文字图像和所述样本文字图像之间的误差。
根据本申请的另一方面,提供了一种字体生成模型的训练装置,所述装置包括:
获取模块,用于获取n种样本字体的字体风格图像、第一文字的字体内容图像和所述第一文字在所述n种样本字体下的样本文字图像,所述n大于或等于2;
预测模块,用于调用所述字体生成模型对所述n种样本字体的字体风格图像中的风格特征进行学习,以及对所述第一文字的字体内容图像中的内容特征进行学习,从而预测出所述第一文字在所述n种样本字体下的预测文字图像;
训练模块,用于根据所述n种样本字体下的预测文字图像与所述n种样本字体下的样本文字图像之间的n组误差,对所述字体生成模型进行训练;
其中,所述n组误差中的每组误差是所述第一文字在同一种样本字体下的所述预测文字图像和所述样本文字图像之间的误差。
在一个可选的设计中,所述预测模块,用于:
调用所述字体生成模型,对所述n种样本字体的字体风格图像进行特征提取,得到所述n种样本字体对应的n种风格特征向量,所述风格特征向量用于反映所述样本字体的字体风格;调用所述字体生成模型,对所述第一文字的字体内容图像进行特征提取,得到内容特征向量,所述内容特征向量用于反映所述第一文字的字体内容图像中的文字的内容;
调用所述字体生成模型,分别根据所述n种风格特征向量以及所述第一文字的所述内容特征向量,预测所述第一文字在所述n种样本字体下的预测文字图像。
在一个可选的设计中,所述字体生成模型包括多风格编码器;所述预测模块,用于:
调用所述多风格编码器,对所述n种样本字体的字体风格图像进行特征提取,得到所述n种风格特征向量;
调用所述多风格编码器,对所述第一文字的字体内容图像进行特征提取,得到所述内容特征向量。
在一个可选的设计中,所述多风格编码器包括n个风格编码器;所述预测模块,用于:
调用所述n个风格编码器,分别对所述n种样本字体的字体风格图像中的一种进行特征提取,得到所述n种风格特征向量。
在一个可选的设计中,所述多风格编码器包括内容编码器;所述预测模块,用于:
调用所述内容编码器,对所述第一文字的字体内容图像进行特征提取,得到所述内容特征向量。
在一个可选的设计中,所述字体生成模型包括混合器;所述预测模块,用于:
调用所述混合器将所述n种风格特征向量分别与所述内容特征向量进行融合,得到n个融合特征向量;
调用所述字体生成模型,根据所述n个融合特征向量,预测所述n种样本字体下的预测文字图像。
在一个可选的设计中,所述字体生成模型还包括解码器;所述预测模块,用于:
调用所述解码器对所述n个融合特征向量分别进行解码处理,得到所述n种样本字体下的预测文字图像。
在一个可选的设计中,所述训练模块,用于:
根据所述n种样本字体下的预测文字图像与所述n种样本字体下的样本文字图像中,同一所述样本字体维度上的图像,以及最小绝对值偏差函数,确定n组修正损失;
根据每组所述修正损失、第一参数和第二参数三者之间的乘积,确定n组目标修正损失;
根据所述n组目标修正损失对所述字体生成模型进行训练;
其中,所述第一参数与所述样本文字图像中的黑色像素点的个数负相关,所述第二参数是根据归一化指数函数以及所述样本文字图像中的黑色像素点的像素值的平均值确定的,所述黑色像素点是像素值低于阈值的像素点。
在一个可选的设计中,所述字体生成模型还包括判别器;所述训练模块,用于;
将所述n种样本字体下的预测文字图像与所述n种样本字体的字体风格图像中,同一所述样本字体维度上的图像,以及所述第一文字的字体内容图像分别输入所述判别器,得到n个第一预测标签,所述第一预测标签用于反映所述预测文字图像是否为真实图像;将所述n种样本字体下的样本文字图像与所述n种样本字体的字体风格图像中,同一所述样本字体维度上的图像,以及所述第一文字的字体内容图像分别输入所述判别器,得到n个第二预测标签,所述第二预测标签用于反映所述样本文字图像是否为真实图像;
根据所述n个第一标签和所述n个第二标签中,对应同一所述样本字体维度的标签,以及生成对抗网络的损失函数,确定n组对抗损失;
根据所述n组目标修正损失和所述n组对抗损失中,对应同一所述样本字体维度的损失,对所述字体生成模型进行训练。
在一个可选的设计中,所述训练模块,用于:
根据n组加权目标修正损失和n组加权对抗损失中,对应同一所述样本字体维度的损失的和,确定n组目标损失,所述n组加权目标修正损失是根据每组所述目标修正损失与第一权重的乘积确定的,所述n组加权对抗损失是根据每组所述对抗损失与第二权重的乘积确定的;
根据所述n组目标损失对所述字体生成模型进行训练。
在一个可选的设计中,所述获取模块,用于获取目标字体的字体风格图像以及第二文字的字体内容图像;
所述预测模块,用于将n份相同的所述目标字体的字体风格图像以及所述第二文字的字体内容图像输入所述字体生成模型,得到所述字体生成模型预测的所述第二文字在所述目标字体下的生成文字图像。
在一个可选的设计中,所述预测模块,用于:
将n份相同的所述目标字体的字体风格图像输入所述字体生成模型,得到n个目标风格特征向量,所述目标风格特征向量用于反映所述目标字体的字体风格;将所述第二文字的字体内容图像输入所述字体生成模型,得到目标内容特征向量,所述目标内容特征向量用于反映所述第二文字的字体内容图像中的文字的内容;
调用所述字体生成模型,根据所述n个目标风格特征向量以及所述目标内容特征向量,确定所述生成文字图像。
在一个可选的设计中,所述预测模块,用于:
确定所述n个目标风格特征向量的平均值;
调用所述字体生成模型,根据所述n个目标风格特征向量的平均值与所述目标内容特征向量,确定所述生成文字图像。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的字体生成模型的训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的字体生成模型的训练方法。
根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的字体生成模型的训练方法。
本申请提供的技术方案带来的有益效果至少包括:
通过对多种样本字体的风格特征进行学习,以及对文字的内容特征进行学习,从而预测出预测文字图像。能够使字体生成模型学习到不同的字体的风格特征,实现有效识别和分析出不同字体之间的差异,以及能够使字体生成模型生成的文字图像中的字体内容适应不同的字体风格。本申请能够强化字体生成模型对不同字体的字体细节差异方面的特征提取能力,使字体生成模型能够处理不同字体的文字图像,能够实现提升字体生成的质量且提高稳定性,在生成新型字体的文字图像时也具有较高的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的字体生成模型的训练过程的示意图;
图2是本申请一个示例性实施例提供的字体生成模型的训练方法的流程示意图;
图3是本申请一个示例性实施例提供的字体生成模型的训练方法的流程示意图;
图4是本申请一个示例性实施例提供的生成文字图像的示意图;
图5是本申请一个示例性实施例提供的字体生成模型的训练装置的结构示意图;
图6是本申请一个示例性实施例提供的计算机设备的结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请一个示例性实施例提供的字体生成模型的训练过程的示意图。如图1所示,字体生成模型包括多风格编码器101、混合器102、解码器103以及判别器104。多风格编码器101、混合器102、解码器103以及判别器104组成生成对抗网络(GenerativeAdversarial Networks,GAN)。其中,多风格编码器101、混合器102、解码器103组成GAN中的生成器(Generator)。多风格编码器101包括至少两个风格编码器以及内容编码器1014,例如包括三个风格编码器,分别为第一风格编码器1011、第二风格编码器1012、第三风格编码器1013。内容编码器1014与解码器103之间连接的虚线表示跳跃式传递(skipconnection)。
在训练阶段,计算机设备会获取n种样本字体的字体风格图像105、第一文字的字体内容图像106以及第一文字在该n种样本字体下的样本文字图像107。其中,n大于或等于2。例如n为3,此时字体风格图像105包括第一样本字体的第一字体风格图像1051、第二样本字体的第二字体风格图像1052以及第三样本字体的第三字体风格图像1053,统称为字体风格图像105。样本文字图像107包括第一文字分别在第一样本字体、第二样本字体以及第三样本字体下的图像。
计算机设备通过各个风格编码器,对n种样本字体中的一种对应的字体风格图像进行特征提取,得到n种样本字体对应的n种风格特征向量。例如通过第一风格编码器1011提取第一字体风格图像1051的风格特征向量,通过第二风格编码器1012提取第二字体风格图像1052的风格特征向量,通过第三风格编码器1013提取第三字体风格图像1053的风格特征向量。计算机设备通过内容编码器1014,对字体内容图像106进行特征提取,得到内容特征向量。其中,风格特征向量用于反映样本字体的字体风格,内容特征向量用于反映第一文字的字体内容图像106中的文字的内容。之后计算机设备将各风格特征向量分别与内容特征向量通过混合器102进行融合,得到n个融合特征向量108。通过解码器103对n个融合特征向量108分别进行解码处理,从而得到第一文字在n种样本字体下的预测文字图像109。
计算机设备根据n种样本字体下的预测文字图像109与n种样本字体下的样本文字图像107中,同一样本字体维度上的图像,以及最小绝对值偏差(Least AbsoluteDeviations,LAD,也称为L1)函数,能够确定修正损失。根据判别器104预测的预测文字图像109的第一预测标签和样本文字图像107的第二预测标签中,对应同一样本字体维度的标签,以及生成对抗网络的损失函数,能够确定对抗损失。之后基于修正损失和对抗损失的和能够对字体生成模型进行训练。该第一预测标签用于反映预测文字图像109是否为真实图像,该第二预测标签用于反映样本文字图像107是否为真实图像。
在应用阶段,计算机设备会获取目标字体的字体风格图像以及第二文字的字体内容图像。之后将n份相同的目标字体的字体风格图像分别输入至各风格编码器,得到n个目标风格特征向量。将第二文字的字体内容图像输入内容编码器1014,得到目标内容特征向量。之后计算机设备会确定各目标风格特征向量的平均值,并通过混合器102融合目标风格特征向量的平均值以及目标内容特征向量,并将融合结果输入解码器103,从而得到生成文字图像,生成文字图像是字体生成模型预测的第二文字在目标字体下的文字图像。
在训练字体生成模型的过程中,通过多个风格编码器,能够提取多种字体的文字图像的风格特征,能够使不同的风格编码器学习到不同的字体的风格特征,实现有效识别和分析出不同字体之间的差异。从而使得内容编码器能够同时适应多种字体,内容编码进而能够处理不同字体的文字图像并且可以更好的提取不同字体的内容特征,使得字体生成的质量提升且稳定性提高,在生成新型字体的文字图像时具有较高的鲁棒性。
图2是本申请一个示例性实施例提供的字体生成模型的训练方法的流程示意图。该方法可以用于计算机设备。如图2所示,该方法包括:
步骤202:获取n种样本字体的字体风格图像、第一文字的字体内容图像和第一文字在n种样本字体下的样本文字图像。
其中,n为大于或等于2的整数,n是计算机设备确定的,例如计算机设备基于字体生成模型的结构设置n。样本字体是人工设置的字体。
可选地,字体风格图像包括n种样本字体中,每种样本字体的一张文字图像或多张文字图像。字体风格图像中,每种样本字体的文字图像的数量相同或不同,每种样本字体的文字图像中的文字相同或不同,每张字体风格图像中的文字相同或不同。
第一文字为任一文字,字体内容图像是内容为第一文字的图像。字体内容图像包括一张文字图像或多张文字图像。字体内容图像中的文字的字体属于n种样本字体或不属于n种样本字体。字体内容图像的数量与n种样本字体中每种样本字体的字体风格图像的数量相同或不同。
样本文字图像包括n种样本字体中的每种样本字体的一张图像或多张图像,样本文字图像中的文字为第一文字。
示例地,字体风格图像包括n种样本字体中,每种样本字体对应的r张图像,r为正整数。例如n为3,r为10,样本字体包括第一样本字体,第二样本字体以及第三样本字体。字体风格图像包括第一样本字体的10张图像,第二样本字体的10张图像以及第三样本字体的10张图像。第一文字的字体内容图像也包括r张图像,例如10张图像。样本文字图像包括n张图像,例如分别为第一文字在第一样本字体下的图像,第一文字在第二样本字体下的图像以及第一文字在第三样本字体下的图像。并且,字体风格图像中的文字与字体内容图像中的文字不同,字体风格图像中的文字各不相同。字体内容图像中的文字的字体不为n种样本字体中的任一种。
步骤204:调用字体生成模型对n种样本字体的字体风格图像中的风格特征进行学习,以及对第一文字的字体内容图像中的内容特征进行学习,从而预测出第一文字在n种样本字体下的预测文字图像。
该字体生成模型用于预测目标文字在目标字体下的文字图像,目标文字以及目标字体是计算机设备确定的。可选地,字体生成模型由卷积神经网络(Convolutional NeuralNetworks,CNN)构成。风格特征用于反映样本字体的字体风格,内容特征用于反映第一文字的字体内容图像中的文字的内容。例如风格特征包括文字的纹理、骨架、粗细等。内容特征包括文字的笔画和结构,内容特征是能够反映字体内容图像中的文字具体是哪一个文字的特征。
可选地,计算机设备调用字体生成模型,能够对n种样本字体的字体风格图像进行特征提取,得到n种样本字体中每种样本字体对应的风格特征向量,从而得到n种风格特征向量。计算机设备还会对第一文字的字体内容图像进行特征提取,从而得到第一文字对应的内容特征向量。之后分别根据n种风格特征向量以及第一文字的内容特征向量,通过字体生成模型能够预测第一文字在n种样本字体下的预测文字图像。
步骤206:根据n种样本字体下的预测文字图像与n种样本字体下的样本文字图像之间的n组误差,对字体生成模型进行训练。
其中,n组误差中的每组误差是第一文字在同一种样本字体下的预测文字图像和样本文字图像之间的误差。计算机设备根据n种样本字体下的预测文字图像与n种样本字体下的样本文字图像中,同一样本字体维度上的图像,以及最小绝对值偏差函数,能够确定n组修正损失。根据修正损失对字体生成模型进行训练。
可选地,上述计算机设备为服务器,该服务器为一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心中的虚拟服务器等。
综上所述,本实施例提供的方法,通过对多种样本字体的风格特征进行学习,以及对文字的内容特征进行学习,从而预测出预测文字图像。能够使字体生成模型学习到不同的字体的风格特征,实现有效识别和分析出不同字体之间的差异,以及能够使字体生成模型生成的文字图像中的字体内容适应不同的字体风格。本申请能够强化字体生成模型对不同字体的字体细节差异方面的特征提取能力,使字体生成模型能够处理不同字体的文字图像,能够实现提升字体生成的质量且提高稳定性,在生成新型字体的文字图像时也具有较高的鲁棒性。
图3是本申请一个示例性实施例提供的字体生成模型的训练方法的流程示意图。该方法可以用于计算机设备。如图3所示,该方法包括:
步骤302:获取n种样本字体的字体风格图像、第一文字的字体内容图像和第一文字在n种样本字体下的样本文字图像。
其中,n大于或等于2。样本字体是人工设置的字体。可选地,字体风格图像包括n种样本字体中,每种样本字体的一张文字图像或多张文字图像。第一文字为任一文字,字体内容图像是内容为第一文字的图像。样本文字图像包括n种样本字体中的每种样本字体的一张图像或多张图像,样本文字图像中的文字为第一文字。
示例性的,计算机设备在获取上述图像时,会先获取样本集合,样本集合中包括大量字体不同、文字不同的文字图像。
计算机设备会选择k张图片
Figure BDA0003264723300000101
(k=1,2,…,k)作为样本文字图像,其中c代表文字内容,即第一文字。代表k种不同的字体,k=n,代表n种样本字体。例如样本文字图像包括“永”字分别在第一样本字体、第二样本字体和第三样本字体下的文字图像(3张图像)。
字体内容图像为
Figure BDA0003264723300000102
表示r张内容为第一文字,但字体不同的文字图像,(i=1,2,…,r)表示r种不同的字体,并且这些字体是从样本集合中随机选取但除去了中的n种样本字体得到的,即
Figure BDA0003264723300000103
例如字体内容图像包括“永”字分别在10种不同字体下的文字图像(10张图像),且该10种不同字体中不包括第一样本字体、第二样本字体和第三样本字体。
在字体风格图像中,每种样本字体对应有一个图像集合。并且,某一种样本字体对应的图像集合中的字体风格图像的字体均为该样本字体。因此,字体风格图像包括k个图像集合。第k个图像集合中的字体风格图像为
Figure BDA0003264723300000111
表示r张字体相同(均为)但是字体内容不同的图像。其中,
Figure BDA0003264723300000112
(i=1,2,…,r)表示图像集合中第r张字体风格图像,
Figure BDA0003264723300000113
表示第r张字体风格图像中的文字。
Figure BDA0003264723300000114
表示字体风格图像中的文字不包括第一文字。例如字体风格图像包括10种不同文字在第一样本字体下的文字图像,10种不同文字在第二样本字体下的文字图像以及10种不同文字在第一样本字体下的文字图像(3个图像集合,每个图像集合中10张图像)。且该10种不同文字中不包括“永”字。
可选地,考虑到字体生成模型训练的效率以及学习的效果,上述k能够设置为3,上述r能够设置为10。图片的分辨率均为80×80。则此时样本文字图像包括第一文字在3种样本字体下的3张文字图像。字体内容图像包括第一文字的10张文字图像。字体风格图像包括3种样本字体各自对应的一个图像集合,每个图像集合包括同为相应的样本字体的10张文字图像。
步骤304:调用字体生成模型,对n种样本字体的字体风格图像进行特征提取,得到n种样本字体对应的n种风格特征向量,以及对第一文字的字体内容图像进行特征提取,得到内容特征向量。
字体生成模型用于预测目标文字在目标字体下的文字图像,目标文字以及目标字体是计算机设备确定的。n种风格特征向量与n种样本字体一一对应,即每种风格特征向量具有与其唯一对应的一种样本字体。
计算机设备调用字体生成模型,对每种样本字体的字体风格图像分别进行特征提取,能够得到每种样本字体对应的风格特征向量,从而得到n种风格特征向量。该风格特征向量用于反映样本字体的字体风格,该内容特征向量用于反映第一文字的字体内容图像中的文字的内容。
可选地,字体生成模型包括多风格编码器(Multi-Style Encoder)。计算机设备调用多风格编码器,对n种样本字体的字体风格图像进行特征提取,能够得到n种风格特征向量。调用多风格编码器,对第一文字的字体内容图像进行特征提取,能够得到内容特征向量。
上述多风格编码器能够包括n个风格编码器,例如风格编码器为
Figure BDA0003264723300000115
(k=1,2,…,k)。计算机设备调用n个风格编码器,分别对n种样本字体的字体风格图像中的一种进行特征提取,能够得到n种风格特征向量,例如为
Figure BDA0003264723300000121
其中,
Figure BDA0003264723300000122
可选地,n个风格编码器的结构都相同。
示例地,表1示出了风格编码器的具体结构。
表1
Figure BDA0003264723300000123
如表1所示,n个风格编码器中的每个,都由8层CNN构成。其中,每层CNN的卷积核(Kernel)和滑动步长(Stride)如表1所示。例如第1层5×5×64的卷积核表示64个大小为5×5的卷积核。滑动步长表示使用卷积核进行卷积的过程中,卷积核每次移动的步长。每层CNN的附加层(Additional Layer)包括批量归一化(Batch Normalization,BN,也称为Batchnorm)层,且激活函数为带泄露修正线性单元函数(Leaky Rectified Linear Unit,Leaky ReLU)函数,0.2表示Leaky ReLU函数的系数。通过上述附加层的结构,能够实现加快字体生成模型在训练过程中的收敛速度。
示例地,字体风格图像包括3种样本字体各自对应的一个图像集合,每个图像集合包括同为相应的样本字体的10张文字图像。计算机设备在将字体风格图像输入字体生成模型时,会将3种样本字体对应的图像集合分别输入不同的风格编码器中。即针对每一个风格编码器,其输入为80×80×10(80×80表示字体风格图像的分辨率,10表示输入的字体风格图像的数量)。通过表1所示的风格编码器对该输入的字体风格图像进行特征提取,能够得到1×1×512维的风格特征向量。
上述多风格编码器还能够包括内容编码器,例如内容编码器为。计算机设备调用内容编码器,对第一文字的字体内容图像进行特征提取,能够得到内容特征向量,例如为。其中,。
示例地,表2示出了内容编码器的具体结构。
表2
Figure BDA0003264723300000131
如表2所示,内容编码器由8层CNN构成。其中,每层CNN的卷积核(Kernel)和滑动步长(Stride)如表2所示。每层CNN的附加层包括BN层,且激活函数为Leaky ReLU函数,0.2表示Leaky ReLU函数的系数。该内容编码器的结构与风格编码器的结构相同。
示例地,字体内容图像包括第一文字对应的一个图像集合,该图像集合包括第一文字的10张文字图像。计算机设备针对内容编码器的输入为80×80×10(80×80表示字体内容图像的分辨率,与字体风格图像相同,10表示输入的字体内容图像的数量)。通过表2所示的内容编码器对该输入的字体内容图像进行特征提取,能够得到1×1×512维的内容特征向量。
步骤306:调用字体生成模型,分别根据n种风格特征向量以及第一文字的内容特征向量,预测第一文字在n种样本字体下的预测文字图像。
第一文字在n种样本字体下的预测文字图像,包括第一文字在n种样本字体中,每种样本字体下的文字图像。例如第一文字在第一样本字体下的预测文字图像,第一文字在第二样本字体下的预测文字图像以及第一文字在第三样本样本字体下的预测文字图像。
可选地,字体生成模型还包括混合器(Mixer network)。计算机设备调用混合器,将n种风格特征向量分别与内容特征向量进行融合,能够得到n个融合特征向量。由于各风格特征向量之间没有相关性,因此计算机设备会平行处理这些风格特征向量,即将各风格特征向量分别与内容特征向量进行融合。之后计算机设备调用字体生成模型,根据该n个融合特征向量,能够预测第一文字在n种样本字体下的预测文字图像。
示例性的,计算机设备将
Figure BDA0003264723300000141
分别与进行融合,从而得到融合特征向量
Figure BDA0003264723300000142
其中,使用混合器进行融合的过程可表示为
Figure BDA0003264723300000143
*表示叉乘,W为张量。
Figure BDA0003264723300000144
和的维度为1*F,
Figure BDA0003264723300000145
是一个1*M维的特征向量。W是F*M*F维的张量。例如在风格编码器为表1中的结构,内容编码器为表2中的结构的情况下,M=F=512。
可选地,字体生成模型还包括解码器(Decoder network)。计算机设备调用解码器对n个融合特征向量分别进行解码处理,能够得到n种样本字体下的预测文字图像。例如预测文字图像为
Figure BDA0003264723300000146
k=1,2,…,k。
示例地,表3示出了解码器的具体结构。
表3
Figure BDA0003264723300000151
如表3所示,解码器由8层CNN构成。其中,每层CNN的卷积核和滑动步长如表3所示。每层CNN的附加层包括BN层,且激活函数为Leaky ReLU函数,0.2表示Leaky ReLU函数的系数。解码器的结构是风格编码器和内容编码器对应的解码结构。
示例地,在提取到n种1×1×512维的风格特征向量和1×1×512维的内容特征向量后。计算机设备会通过混合器将每种风格特征向量和内容特征向量进行融合,得到n个1×1×512维的融合向量。之后将n个1×1×512维的融合向量分别输入表3所示的解码器,能够得到n张预测文字图像(每次输出1张)。其中,每张预测文字图像的分辨率与字体风格图像和字体内容图像相同,例如为80×80。
步骤308:根据n种样本字体下的预测文字图像与n种样本字体下的样本文字图像之间的n组误差,对字体生成模型进行训练。
其中,n组误差中的每组误差是第一文字在同一种样本字体下的预测文字图像和样本文字图像之间的误差。可选地,计算机设备根据n种样本字体下的预测文字图像与n种样本字体下的样本文字图像中,同一样本字体维度上的图像,以及最小绝对值偏差(LeastAbsolute Deviations,LAD)函数,也称L1函数,能够确定n组修正损失。之后根据该n组修正损失能够对字体生成模型进行训练。
使用L1损失函数确定修正损失,来训练字体生成模型,会使得模型更关注于图像中字体较粗,较黑的部分,而会忽略图像中字体较细、较亮的部分。为了缩小这个问题对模型生成的结果的影响,计算机设备还能够根据每组修正损失、第一参数和第二参数三者之间的乘积,确定n组目标修正损失。之后根据n组目标修正损失对字体生成模型进行训练。其中,第一参数与样本文字图像中的黑色像素点的个数负相关,第二参数是根据归一化指数(softmax)函数以及样本文字图像中的黑色像素点的像素值的平均值确定的。该黑色像素点是像素值低于阈值的像素点,该阈值是计算机设备设置的,例如为127。在确定目标修正损失时,针对修正损失使用的第一参数以及第二参数受与该修正损失对应同一样本字体的样本文字图像影响,修正损失对应的样本字体,即确定修正损失的样本文字图像和预测文字图像中的样本字体。
示例地,目标修正损失的计算公式如下:
Figure BDA0003264723300000161
其中,
Figure BDA0003264723300000162
为第一参数,
Figure BDA0003264723300000163
表示样本文字图像
Figure BDA0003264723300000164
中黑色像素的个数。
Figure BDA0003264723300000165
为第二参数,
Figure BDA0003264723300000166
示样本文字图像
Figure BDA0003264723300000167
中的黑色像素点的像素值的平均值。
Figure BDA0003264723300000168
表示根据样本文字图像
Figure BDA0003264723300000169
以及与样本文字图像
Figure BDA00032647233000001610
在同一样本字体维度上的预测文字图像
Figure BDA00032647233000001611
之间,基于L1损失函数确定的修正损失。
softmax函数的计算公式如下:
Figure BDA00032647233000001612
其中,t表示函数的变量。
为了进一步提升字体生成模型的准确度,计算机设备还能够通过生成对抗网络的结构,实现对字体生成模型的训练。可选地,字体生成模型还包括判别器(Discriminator)。该判别器与上述多风格编码器、混合器以及解码器组成生成对抗网络。其中,多风格编码器、混合器以及解码器共同组成生成对抗网络的生成器。
计算机设备将n种样本字体下的预测文字图像与n种样本字体的字体风格图像中,同一样本字体维度上的图像,以及第一文字的字体内容图像分别输入判别器,能够得到n个第一预测标签。计算机设备将n种样本字体下的样本文字图像与n种样本字体的字体风格图像中,同一样本字体维度上的图像,以及第一文字的字体内容图像分别输入判别器,能够得到n个第二预测标签。
该第一预测标签用于反映预测文字图像是否为真实图像,该第二预测标签用于反映样本文字图像是否为真实图像。若为真实图像表示被判断的图像被预测为是未经处理的图像,若不为真实图像表示被判断的图像被预测为是由生成器生成的图像。
示例地,表4示出了判别器的具体结构。
表4
Figure BDA0003264723300000171
如表4所示,判别器由4层CNN构成。其中,每层CNN的卷积核和滑动步长如表4所示。第1、2、3层CNN的附加层包括BN层,且激活函数为Leaky ReLU函数,0.2表示Leaky ReLU函数的系数。
示例地,在确定预测文字图像之后,计算机设备会将各预测文字图像、与预测文字图像对应相同样本字体的字体风格图像以及字体内容图像输入判别器,判别器会判断预测文字图像与字体风格图像以及字体内容图像是否相符。例如能够确定出10×10维的特征向量
Figure BDA0003264723300000181
根据该特征向量能够确定预测文字图像的真假,计算过程如下:
Figure BDA0003264723300000182
其中,Dis表示判别器。
计算机设备还会将各样本文字图像、与样本文字图像对应相同样本字体的字体风格图像以及字体内容图像输入判别器,判别器会判断样本文字图像与字体风格图像以及字体内容图像是否相符,例如能够确定出10×10维的特征向量
Figure BDA0003264723300000183
根据该特征向量能够确定样本文字图像的真假,计算过程如下:
Figure BDA0003264723300000184
计算机设备根据
Figure BDA0003264723300000185
的均值,能够确定预测文字图像的真假。计算机设备根据
Figure BDA0003264723300000186
的均值,能够确定样本文字图像的真假。
计算机设备根据n个第一标签和n个第二标签中,对应同一样本字体维度的标签,以及生成对抗网络的损失函数,能够确定n组对抗损失。之后根据n组目标修正损失和n组对抗损失中,对应同一样本字体维度的损失,对字体生成模型进行训练。
示例地,对抗损失的计算公式如下:
Ladv=Ex,y[logDis(x,y)]+Ex,y[log(1-Dis(x,G(x)))];
其中,y表示样本文字图像,x为字体生成模型的输入,具体包括与该样本文字图像对应同一种样本字体的字体风格图像以及字体内容图像。G表示生成器,则G(x)为预测文字图像,x为字体生成模型的输入,具体包括与该预测文字图像对应同一种样本字体的字体风格图像以及字体内容图像。Dis表示判别器。E表示期望。
在通过目标修正损失和对抗损失训练字体生成模型时,计算机设备还能够根据n组加权目标修正损失和n组加权对抗损失中,对应同一样本字体维度的损失的和,确定n组目标损失,并根据n组目标损失对字体生成模型进行训练。其中,n组加权目标修正损失是根据每组目标修正损失与第一权重的乘积确定的,n组加权对抗损失是根据每组对抗损失与第二权重的乘积确定的。
示例地,字体生成模型的训练目标如下式所示:
Figure BDA0003264723300000187
其中,
Figure BDA0003264723300000188
表示一组目标损失,
Figure BDA0003264723300000189
为第一权重,wadv为第二权重,第一权重和第二权重用于调控目标修正损失和对抗损失。生成对抗网络的训练目标为使判别器的目标损失最大,且生成器的目标损失最小。在训练的过程中,计算机设备会交替训练生成器以及判别器。引入判别器能够使生成器生成判别器无法判别出是否为真实图像的文字图像,从而能够提升生成器输出的准确度。可选地,在训练过程中,首先将第二权重设置为1,之后调整第一权重以达到最优效果。例如最终第一权重能够设置为420。
步骤310:获取目标字体的字体风格图像以及第二文字的字体内容图像。
该目标字体是人工设置的字体。该目标字体属于n种样本字体,或该目标字体为n种样本字体以外的字体。该字体风格图像中的文字的字体为目标字体。
第二文字的字体内容图像是文字为第二文字的文字图像,第二文字与第一文字相同或不同。第二文字的字体内容图像中文字的字体与目标字体相同或不同,第二文字与目标字体的字体风格图像中的文字相同或不同。
示例地,目标字体的字体风格图像包括r张文字图像,第二文字的字体内容图像包括r张文字图像,r为10。在验证字体生成模型生成的字体的效果的情况下,该目标字体属于n种样本字体,该第二文字能够为第一文字或者为其他文字。在使用字体生成模型生成新的字体时,该目标字体不属于n种样本字体,或该目标字体属于n种样本字体(使用了少量新的字体的文字图像训练字体生成模型的情况),该第二文字与第一文字不同。
步骤312:将n份相同的目标字体的字体风格图像以及第二文字的字体内容图像输入字体生成模型,得到字体生成模型预测的第二文字在目标字体下的生成文字图像。
生成文字图像是字体生成模型预测的文字为第二文字,字体为目标字体的文字图像。可选地,计算机设备会将目标字体的字体风格图像复制为n份,并将n份相同的目标字体的字体风格图像输入完成训练的上述字体生成模型,能够得到n个目标风格特征向量,以及将第二文字的字体内容图像输入完成训练的上述字体生成模型,能够得到目标内容特征向量。其中,目标风格特征向量用于反映目标字体的字体风格,目标内容特征向量用于反映第二文字的字体内容图像中的文字的内容。之后,计算机设备调用完成训练的上述字体生成模型,根据n个目标风格特征向量以及目标内容特征向量,能够确定生成文字图像。
可选地,计算机设备将n份相同的目标字体的字体风格图像分别输入字体生成模型中不同的风格编码器中,能够得到n个目标风格特征向量。将第二文字的字体内容图像输入字体生成模型的内容编码器中,能够得到目标内容特征向量。之后计算机设备会确定n个目标风格特征向量的平均值。并调用字体生成模型,根据n个目标风格特征向量的平均值与目标内容特征向量,确定生成文字图像。例如通过字体生成模型的混合器将n个目标风格特征向量的平均值与目标内容特征向量进行混合,之后通过字体生成模型的解码器,对混合的结果进行预测,从而得到生成文字图像。
示例地,图4是本申请一个示例性实施例提供的生成文字图像的示意图。如图4所示,计算机设备获取10张目标字体的字体风格图像401,10张第二文字的字体内容图像402。之后将字体风格图像401复制为n份,与字体内容图像402一起输入字体生成模型403中,从而得到字体生成模型403预测的第二文字在目标字体下的生成文字图像。
在实际应用过程中,通过评估指标能够对字体生成模型输出的结果的准确度进行分析。评估指标包括L1(LAD)、结构相似性(Structural Similarity,SSIM)以及弗雷切特起始距离(Frechet Inception Distance,FID)。
其中,L1表示真实的文字图像(样本文字图像)和预测的文字图像(预测文字图像)中每个像素点绝对值距离之和,以此来评估输出的准确度。计算公式如下:
L1=|f(x)-Y|;
其中,f(x)表示预测的文字图像,Y表示真实的文字图像。
SSIM通过亮度、对比度和结构方面,对真实的文字图像和预测的文字图像计算相似性,以此来评估输出的准确度。计算公式如下:
SSIM(It,Ig)=[1(It,Ig)]α[c(It,Ig)]β[s(It,Ig)]γ
其中,It表示真实的文字图像,Ig表示预测的文字图像。1表示针对亮度的计算,c表示针对对比度的计算,s表示针对结构的计算。α、β和γ为常数,表示亮度、对比度和结构的重要程度。
FID的计算公式如下:
FID=||μrg||2+Tr(∑r+∑g-2(∑rg)1/2);
其中,μr表示真实的文字图像的像素值的均值,μg表示预测的文字图像的像素值的均值。∑r表示真实的文字图像的协方差,∑g表示预测的文字图像的协方差。
SSIM越高代表生成的结果的准确度越高,L1和FID越小代表生成的结果的准确度越高。通过上述评估指标结合样本文字图像以及预测文字图像,能够确定本申请实施例提供的文字生成模型具有准确度较高的生成结果。
需要说明的是,上述步骤302至308可以单独实现,成为模型训练侧的字体生成模型的训练方法。上述步骤310和312可以单独实现,成为模型应用侧的特征提取方法。
综上所述,本实施例提供的方法,通过对多种样本字体的风格特征进行学习,以及对文字的内容特征进行学习,从而预测出预测文字图像。能够使字体生成模型学习到不同的字体的风格特征,实现有效识别和分析出不同字体之间的差异,以及能够使字体生成模型生成的文字图像中的字体内容适应不同的字体风格。本申请能够强化字体生成模型对不同字体的字体细节差异方面的特征提取能力,使字体生成模型能够处理不同字体的文字图像,能够实现提升字体生成的质量且提高稳定性,在生成新型字体的文字图像时也具有较高的鲁棒性。
本实施例提供的方法,还通过分别对风格特征向量以及内容特征向量进行提取,并根据风格特征向量以及内容特征向量共同确定预测文字图像,能够实现同时准确学习到风格特征以及内容特征,从而提升模型的准确度。
本实施例提供的方法,还通过多风格编码器,来对多种样本字体的风格特征向量以及内容特征向量进行特征提取,提供了一种提取多个样本字体的风格特征向量以及内容特征向量的方式。
本实施例提供的方法,还通过多个风格编码器,来提取不同样本字体的风格特征向量,使得字体生成模型能够学习到不同字体风格的风格特征,从而能够有效识别和分析出不同字体之间的差异,提升了模型的准确度。
本实施例提供的方法,还通过内容编码器,来提取内容特征向量,与风格编码器结合能够使得内容编码器能同时适应多种字体,内容编码进而能够处理不同字体的文字图像并且可以更好的提取不同字体的内容特征,提升了模型的准确度。
本实施例提供的方法,还通过混合器将不同风格特征向量与内容特征向量分别融合,从而实现根据融合特征向量预测输出的结果。
本实施例提供的方法,还通过解码器对混合器输出的融合特征向量进行解码处理,从而实现预测出输出结果。
本实施例提供的方法,还通过修正损失、第一参数和第二参数共同确定的目标修正损失来训练字体生成模型,能够在训练模型的过程中避免模型更关注于图像中字体较粗,较黑的部分,而会忽略图像中字体较细、较亮的部分的问题出现。
本实施例提供的方法,还通过目标修正损失与对抗损失来共同训练字体生成模型,通过生成对抗网络的方式训练机器学习模型,能够有效提升机器学习模型的准确度。
本实施例提供的方法,还通过第一权重和第二权重来调整目标修正损失与对抗损失,能够使训练的模型输出更准确的结果。
本实施例提供的方法,还通过获取目标字体的字体风格图像以及第二文字的字体内容图像,使用字体生成模型能够实现预测第二文字在目标字体下的生成文字图像,从而实现预测文字在新的字体下的文字图像。
本实施例提供的方法,还通过分别对目标风格特征向量以及目标内容特征向量进行提取,并根据目标风格特征向量以及目标内容特征向量共同确定生成文字图像,能够实现同时准确预测风格特征以及内容特征,从而提升预测的生成文字图像的准确度。
本实施例提供的方法,还通过确定目标风格特征向量的平均值来与目标内容特征向量共同确定生成文字图像,提供了一种根据多个目标风格特征向量以及内容特征向量确定生成文字图像的方式。
需要说明的是,本申请实施例提供的方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
在一个具体的例子中,字体生成模型的结构如图1所示。在训练字体生成模型的阶段,计算机设备会获取3种已有字体的字体风格图像,字体内容图像以及3种已有字体的样本文字图像。其中每种已有字体的字体风格图像为10张,字体内容图像为10张,样本文字图像为3张。字体内容图像中的文字与字体风格图像不同,与样本文字图像相同。之后计算机设备通过字体生成模型以及字体风格图像和字体内容图像,确定3种已有字体的3张预测文字图像。并根据对应同一种已有字体的预测文字图像和样本文字图像确定3组目标损失,以此来训练字体生成模型。
在应用字体生成模型的阶段,计算机设备会获取人工建立的目标字体的字体风格图像,以及需要转换字体的文字的字体内容图像。通过完成训练的字体生成模型,能够根据目标字体的字体风格图像以及需要转换字体的文字的字体内容图像,预测出需要转换字体的文字在目标字体下的生成文字图像。通过控制需要转换字体的字体内容图像,能够通过字体生成模型生成不同文字在目标字体下的文字图像,从而得到整套的目标字体的文字图像。由于字体生成模型输出的图像是位图,还需对位图进行处理得到矢量图。之后对矢量图进行封装,即可得到整套的目标字体。
图5是本申请一个示例性实施例提供的字体生成模型的训练装置的结构示意图。该装置可以用于计算机设备。如图5所示,该装置包括:
获取模块501,用于获取n种样本字体的字体风格图像、第一文字的字体内容图像和第一文字在n种样本字体下的样本文字图像,n大于或等于2。
预测模块502,用于调用字体生成模型对n种样本字体的字体风格图像中的风格特征进行学习,以及对第一文字的字体内容图像中的内容特征进行学习,从而预测出第一文字在n种样本字体下的预测文字图像。
训练模块503,用于根据n种样本字体下的预测文字图像与n种样本字体下的样本文字图像之间的n组误差,对字体生成模型进行训练。其中,n组误差中的每组误差是第一文字在同一种样本字体下的预测文字图像和样本文字图像之间的误差。
在一个可选的设计中,预测模块502,用于:
调用字体生成模型,对n种样本字体的字体风格图像进行特征提取,得到n种样本字体对应的n种风格特征向量,风格特征向量用于反映样本字体的字体风格。调用字体生成模型,对第一文字的字体内容图像进行特征提取,得到内容特征向量,内容特征向量用于反映第一文字的字体内容图像中的文字的内容。调用字体生成模型,分别根据n种风格特征向量以及第一文字的内容特征向量,预测第一文字在n种样本字体下的预测文字图像。
在一个可选的设计中,字体生成模型包括多风格编码器。预测模块502,用于:
调用多风格编码器,对n种样本字体的字体风格图像进行特征提取,得到n种风格特征向量。调用多风格编码器,对第一文字的字体内容图像进行特征提取,得到内容特征向量。
在一个可选的设计中,多风格编码器包括n个风格编码器。预测模块502,用于:
调用n个风格编码器,分别对n种样本字体的字体风格图像中的一种进行特征提取,得到n种风格特征向量。
在一个可选的设计中,多风格编码器包括内容编码器。预测模块502,用于:
调用内容编码器,对第一文字的字体内容图像进行特征提取,得到内容特征向量。
在一个可选的设计中,字体生成模型包括混合器。预测模块502,用于:
调用混合器将n种风格特征向量分别与内容特征向量进行融合,得到n个融合特征向量。调用字体生成模型,根据n个融合特征向量,预测n种样本字体下的预测文字图像。
在一个可选的设计中,字体生成模型还包括解码器。预测模块502,用于:
调用解码器对n个融合特征向量分别进行解码处理,得到n种样本字体下的预测文字图像。
在一个可选的设计中,训练模块503,用于:
根据n种样本字体下的预测文字图像与n种样本字体下的样本文字图像中,同一样本字体维度上的图像,以及最小绝对值偏差函数,确定n组修正损失。根据每组修正损失、第一参数和第二参数三者之间的乘积,确定n组目标修正损失。根据n组目标修正损失对字体生成模型进行训练。
其中,第一参数与样本文字图像中的黑色像素点的个数负相关,第二参数是根据归一化指数函数以及样本文字图像中的黑色像素点的像素值的平均值确定的,黑色像素点是像素值低于阈值的像素点。
在一个可选的设计中,字体生成模型还包括判别器。训练模块503,用于。
将n种样本字体下的预测文字图像与n种样本字体的字体风格图像中,同一样本字体维度上的图像,以及第一文字的字体内容图像分别输入判别器,得到n个第一预测标签,第一预测标签用于反映预测文字图像是否为真实图像。将n种样本字体下的样本文字图像与n种样本字体的字体风格图像中,同一样本字体维度上的图像,以及第一文字的字体内容图像分别输入判别器,得到n个第二预测标签,第二预测标签用于反映样本文字图像是否为真实图像。
根据n个第一标签和n个第二标签中,对应同一样本字体维度的标签,以及生成对抗网络的损失函数,确定n组对抗损失。根据n组目标修正损失和n组对抗损失中,对应同一样本字体维度的损失,对字体生成模型进行训练。
在一个可选的设计中,训练模块503,用于:
根据n组加权目标修正损失和n组加权对抗损失中,对应同一样本字体维度的损失的和,确定n组目标损失,n组加权目标修正损失是根据每组目标修正损失与第一权重的乘积确定的,n组加权对抗损失是根据每组对抗损失与第二权重的乘积确定的。根据n组目标损失对字体生成模型进行训练。
在一个可选的设计中,获取模块501,用于获取目标字体的字体风格图像以及第二文字的字体内容图像。预测模块502,用于将n份相同的目标字体的字体风格图像以及第二文字的字体内容图像输入字体生成模型,得到字体生成模型预测的第二文字在目标字体下的生成文字图像。
在一个可选的设计中,预测模块502,用于:
将n份相同的目标字体的字体风格图像输入字体生成模型,得到n个目标风格特征向量,目标风格特征向量用于反映目标字体的字体风格。将第二文字的字体内容图像输入字体生成模型,得到目标内容特征向量,目标内容特征向量用于反映第二文字的字体内容图像中的文字的内容。调用字体生成模型,根据n个目标风格特征向量以及目标内容特征向量,确定生成文字图像。
在一个可选的设计中,预测模块502,用于:
确定n个目标风格特征向量的平均值。调用字体生成模型,根据n个目标风格特征向量的平均值与目标内容特征向量,确定生成文字图像。
需要说明的是:上述实施例提供的字体生成模型的训练装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的字体生成模型的训练装置与字体生成模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请的实施例还提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的字体生成模型的训练方法。
可选地,该计算机设备为服务器。示例地,图6是本申请一个示例性实施例提供的计算机设备的结构示意图。
所述计算机设备600包括中央处理单元(Central Processing Unit,CPU)601、包括随机存取存储器(Random Access Memory,RAM)602和只读存储器(Read-Only Memory,ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统,I/O系统)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读存储介质为计算机设备600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读存储介质(未示出)。
不失一般性,所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory,EEPROM)、闪存或其他固态存储设备,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元601执行,一个或多个程序包含用于实现上述方法实施例的指令,中央处理单元601执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。
本申请实施例中还提供了一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,当该至少一条指令、至少一段程序、代码集或指令集由计算机设备的处理器加载并执行时,实现上述各方法实施例提供的字体生成模型的训练方法。
本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例提供的字体生成模型的训练方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的可读存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。

Claims (17)

1.一种字体生成模型的训练方法,其特征在于,所述方法包括:
获取n种样本字体的字体风格图像、第一文字的字体内容图像和所述第一文字在所述n种样本字体下的样本文字图像,所述n大于或等于2;
调用所述字体生成模型对所述n种样本字体的字体风格图像中的风格特征进行学习,以及对所述第一文字的字体内容图像中的内容特征进行学习,从而预测出所述第一文字在所述n种样本字体下的预测文字图像;
根据所述n种样本字体下的预测文字图像与所述n种样本字体下的样本文字图像之间的n组误差,对所述字体生成模型进行训练;
其中,所述n组误差中的每组误差是所述第一文字在同一种样本字体下的所述预测文字图像和所述样本文字图像之间的误差。
2.根据权利要求1所述的方法,其特征在于,所述调用所述字体生成模型对所述n种样本字体的字体风格图像中的风格特征进行学习,以及对所述第一文字的字体内容图像中的内容特征进行学习,从而预测出所述第一文字在所述n种样本字体下的预测文字图像,包括:
调用所述字体生成模型,对所述n种样本字体的字体风格图像进行特征提取,得到所述n种样本字体对应的n种风格特征向量,所述风格特征向量用于反映所述样本字体的字体风格;调用所述字体生成模型,对所述第一文字的字体内容图像进行特征提取,得到内容特征向量,所述内容特征向量用于反映所述第一文字的字体内容图像中的文字的内容;
调用所述字体生成模型,分别根据所述n种风格特征向量以及所述第一文字的所述内容特征向量,预测所述第一文字在所述n种样本字体下的预测文字图像。
3.根据权利要求2所述的方法,其特征在于,所述字体生成模型包括多风格编码器;所述调用所述字体生成模型,对所述n种样本字体的字体风格图像进行特征提取,得到所述n种样本字体对应的n种风格特征向量,包括:
调用所述多风格编码器,对所述n种样本字体的字体风格图像进行特征提取,得到所述n种风格特征向量;
所述调用所述字体生成模型,对所述第一文字的字体内容图像进行特征提取,得到内容特征向量,包括:
调用所述多风格编码器,对所述第一文字的字体内容图像进行特征提取,得到所述内容特征向量。
4.根据权利要求3所述的方法,其特征在于,所述多风格编码器包括n个风格编码器;所述调用所述多风格编码器,对所述n种样本字体的字体风格图像进行特征提取,得到所述n种风格特征向量,包括:
调用所述n个风格编码器,分别对所述n种样本字体的字体风格图像中的一种进行特征提取,得到所述n种风格特征向量。
5.根据权利要求3所述的方法,其特征在于,所述多风格编码器包括内容编码器;所述调用所述多风格编码器,对所述第一文字的字体内容图像进行特征提取,得到所述内容特征向量,包括:
调用所述内容编码器,对所述第一文字的字体内容图像进行特征提取,得到所述内容特征向量。
6.根据权利要求2所述的方法,其特征在于,所述字体生成模型包括混合器;所述调用所述字体生成模型,分别根据所述n种风格特征向量以及所述第一文字的所述内容特征向量,预测所述第一文字在所述n种样本字体下的预测文字图像,包括:
调用所述混合器将所述n种风格特征向量分别与所述内容特征向量进行融合,得到n个融合特征向量;
调用所述字体生成模型,根据所述n个融合特征向量,预测所述n种样本字体下的预测文字图像。
7.根据权利要求6所述的方法,其特征在于,所述字体生成模型还包括解码器;所述调用所述字体生成模型,根据所述n个融合特征向量,预测所述n种样本字体下的预测文字图像,包括:
调用所述解码器对所述n个融合特征向量分别进行解码处理,得到所述n种样本字体下的预测文字图像。
8.根据权利要求1至7任一所述的方法,其特征在于,所述根据所述n种样本字体下的预测文字图像与所述n种样本字体下的样本文字图像之间的n组误差,对所述字体生成模型进行训练,包括:
根据所述n种样本字体下的预测文字图像与所述n种样本字体下的样本文字图像中,同一所述样本字体维度上的图像,以及最小绝对值偏差函数,确定n组修正损失;
根据每组所述修正损失、第一参数和第二参数三者之间的乘积,确定n组目标修正损失;
根据所述n组目标修正损失对所述字体生成模型进行训练;
其中,所述第一参数与所述样本文字图像中的黑色像素点的个数负相关,所述第二参数是根据归一化指数函数以及所述样本文字图像中的黑色像素点的像素值的平均值确定的,所述黑色像素点是像素值低于阈值的像素点。
9.根据权利要求8所述的方法,其特征在于,所述字体生成模型还包括判别器;所述根据所述n组目标修正损失对所述字体生成模型进行训练,包括;
将所述n种样本字体下的预测文字图像与所述n种样本字体的字体风格图像中,同一所述样本字体维度上的图像,以及所述第一文字的字体内容图像分别输入所述判别器,得到n个第一预测标签,所述第一预测标签用于反映所述预测文字图像是否为真实图像;将所述n种样本字体下的样本文字图像与所述n种样本字体的字体风格图像中,同一所述样本字体维度上的图像,以及所述第一文字的字体内容图像分别输入所述判别器,得到n个第二预测标签,所述第二预测标签用于反映所述样本文字图像是否为真实图像;
根据所述n个第一标签和所述n个第二标签中,对应同一所述样本字体维度的标签,以及生成对抗网络的损失函数,确定n组对抗损失;
根据所述n组目标修正损失和所述n组对抗损失中,对应同一所述样本字体维度的损失,对所述字体生成模型进行训练。
10.根据权利要求9所述的方法,其特征在于,所述根据所述n组目标修正损失和所述n组对抗损失中,对应同一所述样本字体维度的损失,对所述字体生成模型进行训练,包括:
根据n组加权目标修正损失和n组加权对抗损失中,对应同一所述样本字体维度的损失的和,确定n组目标损失,所述n组加权目标修正损失是根据每组所述目标修正损失与第一权重的乘积确定的,所述n组加权对抗损失是根据每组所述对抗损失与第二权重的乘积确定的;
根据所述n组目标损失对所述字体生成模型进行训练。
11.根据权利要求1至7任一所述的方法,其特征在于,所述方法还包括:
获取目标字体的字体风格图像以及第二文字的字体内容图像;
将n份相同的所述目标字体的字体风格图像以及所述第二文字的字体内容图像输入所述字体生成模型,得到所述字体生成模型预测的所述第二文字在所述目标字体下的生成文字图像。
12.根据权利要求11所述的方法,其特征在于,所述将n份相同的所述目标字体的字体风格图像以及所述第二文字的字体内容图像输入所述字体生成模型,得到所述字体生成模型预测的所述第二文字在所述目标字体下的生成文字图像,包括:
将n份相同的所述目标字体的字体风格图像输入所述字体生成模型,得到n个目标风格特征向量,所述目标风格特征向量用于反映所述目标字体的字体风格;将所述第二文字的字体内容图像输入所述字体生成模型,得到目标内容特征向量,所述目标内容特征向量用于反映所述第二文字的字体内容图像中的文字的内容;
调用所述字体生成模型,根据所述n个目标风格特征向量以及所述目标内容特征向量,确定所述生成文字图像。
13.根据权利要求12所述的方法,其特征在于,所述调用所述字体生成模型,根据所述n个目标风格特征向量以及所述目标内容特征向量,确定所述生成文字图像,包括:
确定所述n个目标风格特征向量的平均值;
调用所述字体生成模型,根据所述n个目标风格特征向量的平均值与所述目标内容特征向量,确定所述生成文字图像。
14.一种字体生成模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取n种样本字体的字体风格图像、第一文字的字体内容图像和所述第一文字在所述n种样本字体下的样本文字图像,所述n大于或等于2;
预测模块,用于调用所述字体生成模型对所述n种样本字体的字体风格图像中的风格特征进行学习,以及对所述第一文字的字体内容图像中的内容特征进行学习,从而预测出所述第一文字在所述n种样本字体下的预测文字图像;
训练模块,用于根据所述n种样本字体下的预测文字图像与所述n种样本字体下的样本文字图像之间的n组误差,对所述字体生成模型进行训练;
其中,所述n组误差中的每组误差是所述第一文字在同一种样本字体下的所述预测文字图像和所述样本文字图像之间的误差。
15.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至13任一所述的字体生成模型的训练方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至13任一所述的字体生成模型的训练方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至13任一所述的字体生成模型的训练方法。
CN202111082877.6A 2021-09-15 2021-09-15 字体生成模型的训练方法、装置、设备及存储介质 Pending CN115828848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111082877.6A CN115828848A (zh) 2021-09-15 2021-09-15 字体生成模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111082877.6A CN115828848A (zh) 2021-09-15 2021-09-15 字体生成模型的训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115828848A true CN115828848A (zh) 2023-03-21

Family

ID=85514949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111082877.6A Pending CN115828848A (zh) 2021-09-15 2021-09-15 字体生成模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115828848A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236284A (zh) * 2023-11-13 2023-12-15 江西师范大学 基于风格信息与内容信息适配的字体生成方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236284A (zh) * 2023-11-13 2023-12-15 江西师范大学 基于风格信息与内容信息适配的字体生成方法及装置

Similar Documents

Publication Publication Date Title
CN110188760B (zh) 一种图像处理模型训练方法、图像处理方法及电子设备
CN110032633B (zh) 多轮对话处理方法、装置和设备
US20230022387A1 (en) Method and apparatus for image segmentation model training and for image segmentation
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN109753661B (zh) 一种机器阅读理解方法、装置、设备及存储介质
CN111401374A (zh) 基于多任务的模型训练方法、字符识别方法及装置
CN114596566B (zh) 文本识别方法及相关装置
CN115100582B (zh) 基于多模态数据的模型训练方法及装置
CN113539273B (zh) 一种语音识别方法、装置、计算机设备和存储介质
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
CN112149642A (zh) 一种文本图像识别方法和装置
CN116982089A (zh) 用于图像语义增强的方法和系统
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN115828848A (zh) 字体生成模型的训练方法、装置、设备及存储介质
CN112966754B (zh) 样本筛选方法、样本筛选装置及终端设备
CN112819848B (zh) 抠图方法、抠图装置和电子设备
CN115100659A (zh) 文本识别方法、装置、电子设备和存储介质
CN115620314A (zh) 文本识别方法、答案文本的验证方法、装置、设备及介质
CN114240770A (zh) 一种图像处理方法、装置、服务器及存储介质
CN110222693B (zh) 构建字符识别模型与识别字符的方法和装置
CN113744158A (zh) 图像生成方法、装置、电子设备和存储介质
RU2817316C2 (ru) Способ и устройство для обучения модели генерирования изображений, способ и устройство для генерирования изображений и их устройства
CN117649358B (zh) 图像处理方法、装置、设备及存储介质
CN116958954B (zh) 基于关键点与旁路矫正的车牌识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination