CN114820871A

CN114820871A - 字体生成方法、模型的训练方法、装置、设备和介质

Info

Publication number: CN114820871A
Application number: CN202210748173.6A
Authority: CN
Inventors: 唐礼承; 刘家铭; 尚太章
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-07-29
Anticipated expiration: 2042-06-29
Also published as: CN114820871B

Abstract

本公开提供了一种字体生成方法、字体生成模型的训练方法、装置、设备和介质，涉及深度学习、图像处理、计算机视觉等技术领域。方案为：分别对待处理图像和参考图像进行编码，以得到待处理图像中第一待处理字符的内容特征及参考图像中参考字符的风格特征；将内容特征和风格特征进行融合，得到目标特征；对目标特征进行解码，得到包括具有参考风格的第二待处理字符的预测图像。由此，可实现将参考图像中具有参考风格的各字符的风格特征，融合进待处理图像中各字符的内容特征中，从而可使解码后的预测图像中各字符具有参考图像中的参考风格，提升预测图像中各字符的生成效果或字体风格的迁移效果，即提升预测图像生成结果的准确性。

Description

字体生成方法、模型的训练方法、装置、设备和介质

技术领域

本公开涉及图像处理技术领域，尤其涉及深度学习、图像处理、计算机视觉等技术领域，具体涉及一种字体生成方法、字体生成模型的训练方法、装置、设备和介质。

背景技术

由于每个人的手写字风格不同，文字具有丰富的展现方式。在经济生活和社会生活的一些场景中，比如，在字体设计行业中，用户可能需要使用特定手写字风格的字体。上述特定手写字风格的字体，可以采用临摹的方式得到，或者，可以采用图像风格迁移领域中的手写字体生成技术生成。

目前，基于深度学习网络实现字体风格迁移的方案中，生成式对抗网络（Generative Adversarial Net，GAN）模型作为一种强大的字体生成模型，为手写字体的风格迁移学习提供了解决方案。

发明内容

本公开提供了一种字体生成方法、字体生成模型的训练方法、装置、设备和介质。

根据本公开的一方面，提供了一种字体生成方法，包括：

获取待处理图像和参考图像；

分别对所述待处理图像和所述参考图像进行编码，得到所述待处理图像中第一待处理字符的内容特征以及所述参考图像中参考字符的风格特征；

将所述内容特征与所述风格特征进行融合，得到目标特征；

对所述目标特征进行解码，得到预测图像，其中，所述预测图像中包括具有参考风格的第二待处理字符。

根据本公开的另一方面，提供了一种字体生成模型的训练方法，包括：

获取样本图像、目标图像及参考图像，其中，所述样本图像中包括具有第一风格的样本字符，所述目标图像中包括具有第二风格的所述样本字符，所述参考图像中包括具有第二风格的参考字符；

采用初始字体生成模型分别对所述样本图像和所述参考图像进行编码，得到所述样本图像中所述样本字符的内容特征以及所述参考图像中所述参考字符的第一风格特征；

将所述内容特征和所述第一风格特征进行融合，得到第一目标特征；

采用所述初始字体生成模型对所述第一目标特征进行解码，得到第一预测图像；

根据所述目标图像和所述第一预测图像之间的差异，对所述初始字体生成模型进行训练。

根据本公开的又一方面，提供了一种字体生成装置，包括：

获取模块，用于获取待处理图像和参考图像；

编码模块，用于分别对所述待处理图像和所述参考图像进行编码，以得到所述待处理图像中第一待处理字符的内容特征以及所述参考图像中参考字符的风格特征；

融合模块，用于将所述内容特征与所述风格特征进行融合，得到目标特征；

解码模块，用于对所述目标特征进行解码，得到预测图像，其中，所述预测图像中包括具有参考风格的第二待处理字符。

根据本公开的再一方面，提供了一种字体生成模型的训练装置，包括：

获取模块，用于获取样本图像、目标图像及参考图像，其中，所述样本图像中包括具有第一风格的样本字符，所述目标图像中包括具有第二风格的所述样本字符，所述参考图像中包括具有第二风格的参考字符；

编码模块，用于采用初始字体生成模型分别对所述样本图像和所述参考图像进行编码，得到所述样本图像中所述样本字符的内容特征以及所述参考图像中所述参考字符的第一风格特征；

融合模块，用于将所述内容特征和所述第一风格特征进行融合，得到第一目标特征；

解码模块，用于采用所述初始字体生成模型对所述第一目标特征进行解码，得到第一预测图像；

训练模块，用于根据所述目标图像和所述第一预测图像之间的差异，对所述初始字体生成模型进行训练。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的字体生成方法，或者，执行本公开上述另一方面提出的字体生成模型的训练方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的字体生成方法，或者，执行本公开上述另一方面提出的字体生成模型的训练方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的字体生成方法，或者，实现本公开上述另一方面提出的字体生成模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一所提供的字体生成方法的流程示意图；

图2为本公开实施例二所提供的字体生成方法的流程示意图；

图3为本公开实施例三所提供的字体生成方法的流程示意图；

图4为本公开所提供的注意力网络的结构示意图；

图5为本公开实施例四所提供的字体生成模型的训练方法的流程示意图；

图6为本公开实施例五所提供的字体生成模型的训练方法的流程示意图；

图7为本公开所提供的字体分解树；

图8为本公开实施例六所提供的字体生成模型的训练方法的流程示意图；

图9为本公开实施例七所提供的字体生成模型的训练方法的流程示意图；

图10为本公开实施例八所提供的字体生成模型的训练方法的流程示意图；

图11为本公开实施例九所提供的字体生成模型的训练方法的流程示意图；

图12为本公开所提供的以生成式对抗网络GAN为基本结构的字体生成模型的结构示意图；

图13为本公开实施例十所提供的字体生成装置的结构示意图；

图14为本公开实施例十一所提供的字体生成模型的训练装置的结构示意图；

图15示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

手写字体生成一直是许多学者着重研究的课题，其在字体设计行业有着广泛的应用价值。目前，手写字体生成的实现方案可以分为两个方向：第一个方向是基于深度学习的实现方案，第二个方向是传统字体拆分再组合的实现方案，两个方向有着各自的优势和缺陷。

相关技术中，基于深度学习的字体生成方案，尤其是基于生成性对抗网络GAN的字体生成方案中，需要采用大量的训练数据对GAN网络进行训练，其中，训练数据的质量和数量会极大地影响GAN网络的输出效果。然而，在实际应用中，用户能够提供的手写字的数量较少，少量的训练数据限制了GAN网络在字体生成任务上的表现。

而且，虽然基于深度学习的字体生成方案在类印刷体的迁移效果上具有较好的预测效果，但在实际应用中的预测效果不佳，一是因为无法收集到足够的训练数据训练模型，二是因为相比用户较为随意的手写字体，类印刷体具有更加稳定的特征，模型更加容易训练。

而对于传统拆分再组合的字体生成方案中，美观度和多样性有所欠缺，同时字体生成方案的实现过程较为复杂，不同步骤之间产生的误差容易累计，并导致最终输出的用户手写字体具有某些缺陷。

针对上述问题，本公开提出一种字体生成方法、字体生成模型的训练方法、装置、电子设备和介质。

下面参考附图描述本公开实施例的字体生成方法、字体生成模型的训练方法、装置、电子设备和介质。

图1为本公开实施例一所提供的字体生成方法的流程示意图。

本公开实施例以该字体生成方法被配置于字体生成装置中来举例说明，该字体生成装置可以应用于任一电子设备中，以使该电子设备可以执行字体生成功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为电脑、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该字体生成方法可以包括以下步骤：

步骤101，获取待处理图像和参考图像。

在本公开实施例中，参考图像中可以包括至少一个具有参考风格的参考字符，其中，参考风格可以是用户所需的手写字体的风格。参考字符可以为具有参考风格的字符，其中，字符可以为汉字、单词等，参考字符的个数可以为但不限于为一个，本公开对此不作限制。

在本公开实施例中，参考图像可以是用户根据实际需要提供的手写图像，其中，参考图像的图像格式可以是JPG格式、JPEG（Joint Photographic Experts Group，联合图像专家组）格式、TIF（Tagged Image File，标签图像文件）格式、PNG（Portable NetworkGraphics，便携式网络图形）等格式，本公开对此不做限制。

作为一种示例，用户可以在白纸上书写至少一个参考字符，并通过图像采集设备（比如相机、移动终端等）对白纸上的参考字符进行拍照，得到参考图像。

在本公开实施例中，对待处理图像的获取方式不作限制，比如，待处理图像可以从现有的测试集或训练集获取，或者，待处理图像可以在线采集，比如可以通过网络爬虫技术在线获取待处理图像，或者，待处理图像也可以为用户提供的，等等，本公开对此并不做限制。

步骤102，分别对待处理图像和参考图像进行编码，得到待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征。

在本公开实施例中，待处理图像中可以包括第一待处理字符，其中，第一待处理字符的个数可以为一个，或者也可以为多个，本公开对此不做限制。

需要说明的是，第一待处理字符可以为规范字体，比如可以为楷体、宋体、黑体等等，或者，第一待处理字符也可以为非规范字体，本公开对此不做限制。

在本公开实施例中，可以基于图像编码算法，分别对待处理图像和参考图像进行编码，以得到待处理图像中各第一待处理字符的内容特征以及参考图像中各参考字符的风格特征。

作为一种示例，可以分别对待处理图像和参考图像进行编码，得到的待处理图像中各第一待处理字符的内容特征可以为c（通道）×h（高）×w（宽）的立体的内容特征，得到的参考图像中各参考字符的风格特征可以为c（通道）×h（高）×w（宽）的立体的风格特征。

步骤103，将内容特征与风格特征进行融合，得到目标特征。

在本公开实施例中，针对待处理图像中的任意一个第一待处理字符，可以将该第一待处理字符对应的内容特征和各参考字符的风格特征进行融合，从而得到该第一待处理字符对应的目标特征。

例如，假设参考字符的个数为k个，则针对每个第一待处理字符，可以将该第一待处理字符的内容特征与k个参考字符的风格特征进行融合，以得到该第一待处理字符对应的目标特征。其中，k为正整数。

步骤104，对目标特征进行解码，以得到预测图像，其中，预测图像中包括具有参考风格的第二待处理字符。

在本公开实施例中，可以对各第一待处理字符的目标特征进行解码，以得到预测图像，其中，预测图像中可以包括具有参考风格的第二待处理字符。

其中，第二待处理字符和第一待处理字符的内容相同，比如，第一待处理字符为“泞”，第二待处理字符也为“泞”，不同之处在于，第二待处理字符的风格与第一待处理字符的风格不同，比如，第一待处理字符的风格可以为规范字体风格，第二待处理字符的风格可以为手写字体风格。

本公开实施例的字体生成方法，通过获取待处理图像和参考图像；分别对待处理图像和参考图像进行编码，得到待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征；将内容特征和风格特征进行融合，得到目标特征；对目标特征进行解码，得到预测图像，其中，预测图像中包括具有参考风格的第二待处理字符。由此，可以实现将参考图像中具有参考风格的各字符的风格特征，融合进待处理图像中各字符的内容特征中，从而可以使得解码后的预测图像中各字符具有参考图像中的参考风格，提升预测图像中各字符的生成效果或字体风格的迁移效果，即提升预测图像生成结果的准确性，以改善用户的使用体验。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

为了清楚说明本公开上述实施例中，是如何将第一待处理字符的内容特征和参考字符的风格特征进行融合，得到该第一待处理字符的目标特征的，本公开还提出一种字体生成方法。

图2为本公开实施例二所提供的字体生成方法的流程示意图。

如图2所示，该字体生成方法可以包括以下步骤：

步骤201，获取待处理图像和参考图像。

步骤202，分别对待处理图像和参考图像进行编码，得到待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征。

步骤201至202的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

在本公开实施例的一种可能的实现方式中，为了实现准确获取待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征，可以采用字体生成模型中的内容编码网络（又可以称为内容编码器）对待处理图像中的各第一待处理字符进行编码，得到各第一待处理字符的内容特征；可以采用字体生成模型中的风格编码网络（又可以称为风格编码器）对参考图像中各参考字符进行编码，得到各参考字符的风格特征。

由此，基于深度学习技术，对待处理图像和参考图像进行编码，可以提升编码结果（即内容特征和风格特征）的准确性和可靠性。

步骤203，将内容特征输入字体生成模型的注意力网络的第一线性层，得到第一线性层输出的第一注意力参数。

在本公开实施例中，字体生成模型可以包括注意力网络，比如该注意力网络可以为多头（比如M头， M为大于0的整数）注意力网络，其中，注意力网络可以具有第一线性层。

在本公开实施例中，针对待处理图像中的任意一个第一待处理字符，可以将该第一待处理字符对应的内容特征输入字体生成模型中的注意力网络中的第一线性层，得到第一线性层输出的第一注意力参数。比如，第一注意力参数可以为Query（简称Q）参数。

步骤204，将风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数。

在本公开实施例中，注意力网络中还可以具有第二线性层，可以将各参考字符的风格特征输入字体生成模型中的注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数。比如，第二注意力参数可以为Key（简称K）参数。

例如，假设参考字符的个数为k个，则可以将k个参考字符的风格特征一起输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数。

步骤205，将风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数。

在本公开实施例中，注意力网络还可以具有第三线性层，可以将各参考字符的风格特征输入字体生成模型中的注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数。比如，第三注意力参数可以为Value（简称V）参数。

例如，假设参考字符的个数为k个，则可以将k个参考字符的风格特征一起输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数。

需要说明的是，第三线性层的网络参数可以与第二线性层的网络参数不同，因此，第三注意力参数与第二注意力参数可以不同。

步骤206，根据第一注意力参数、第二注意力参数和第三注意力参数，确定目标特征。

在本公开实施例中，针对任一第一待处理字符，可以基于注意力机制，根据该第一待处理字符对应的第一注意力参数、第二注意力参数和第三注意力参数，确定该第一待处理字符对应的目标特征。

步骤207，对目标特征进行解码，得到预测图像，其中，预测图像中包括具有参考风格的第二待处理字符。

步骤207的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

作为一种示例，可以采用字体生成模型中的解码网络（又可以称为解码器）对各待处理字符的目标特征进行解码，以得到预测图像。

由此，基于深度学习技术，对各待处理字符的目标特征进行解码，可以提升解码结果（即预测图像）的准确性和可靠性。

本公开实施例的字体生成方法，通过将内容特征输入字体生成模型的注意力网络的第一线性层，得到第一线性层的输出的第一注意力参数；将风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数；将风格特征输入至注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数；根据第一注意力参数、第二注意力参数和第三注意力参数，确定目标特征。由此，可以实现基于注意力机制，将第一待处理字符的内容特征和参考字符的风格特征进行融合，可以提升融合结果的准确性和可靠性。

为了清楚说明本公开任一实施例中，是如何根据第一注意力参数、第二注意力参数和第三注意力参数，确定第一待处理字符的目标特征的，本公开还提出一种字体生成方法。

图3为本公开实施例三所提供的字体生成方法的流程示意图。

如图3所示，该字体生成方法可以包括以下步骤：

步骤301，获取待处理图像和参考图像。

步骤302，分别对待处理图像和参考图像进行编码，得到待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征。

步骤303，将内容特征输入字体生成模型的注意力网络的第一线性层，得到第一线性层输出的第一注意力参数。

步骤304，将风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数。

步骤305，将风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数。

步骤301至305的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤306，将第二注意力参数与第一注意力参数内积后进行归一化，得到注意力权值。

本公开实施例中，可以将第二注意力参数与第一注意力参数做内积计算，并可以对内积计算结果进行归一化处理，以得到注意力权值。

步骤307，根据注意力权值对第三注意力参数进行加权，得到加权特征。

在本公开实施例中，根据步骤306得到的注意力权值对第三注意力参数进行加权，以得到加权特征。

作为一种示例，可以根据以下公式，得到加权特征：

Attention(Q,K,V)=softmax(Q^TK/(d_k)^1/2)V^T；（1）

其中，Q表示第一注意力参数（即Query参数），K表示第二注意力参数（即Key参数），V表示第三注意力参数（即Value参数），d_k表示归一化因子，T表示矩阵的转置操作，Attention(Q,K,V)为加权特征。

步骤308，根据加权特征生成目标特征。

在本公开实施例中，可以根据加权特征生成第一待处理字符对应的目标特征。

在本公开实施例的一种可能的实现方式中，可以将加权特征和第一注意力参数进行融合，得到融合特征，并将融合特征输入注意力网络中的第四线性层，得到第四线性层输出的中间特征，从而可以将中间特征与第一待处理字符的内容特征进行拼接，以得到第一待处理字符对应的目标特征。

作为一种示例，可以将加权特征和第一注意力参数进行相加，得到融合特征，并将融合特征输入该注意力网络中的第四线性层进行线性映射处理，得到第四线性层输出的中间特征，从而可以将中间特征与第一待处理字符的内容特征进行拼接，得到第一待处理字符对应的目标特征。

综上，可以实现根据加权特征生成第一待处理字符对应的目标特征。可以理解的是，由于加权特征是基于注意力机制，对内容特征和风格特征进行融合后得到的，该加权特征已融合了第一待处理字符的内容信息和参考字符的风格信息，采用注意力网络进一步对该加权特征进行处理，以得到第一待处理字符的目标特征，可以提升目标特征生成结果的准确性。

作为一种示例，以注意力网络的结构如图4所示进行示例，针对任一第一待处理字符，该第一待处理字符的内容特征可以为c（通道）×h（高）×w（宽）的立体的内容特征f_c，参考字符的风格特征可以为c（通道）×h（高）×w（宽）的立体的风格特征f_i，其中，i=1,2,…,k，k为参考字符的个数，各参考字符的风格特征为F_s(={f₁,f₂,…,f_k})。可以将任一第一待处理字符的内容特征f_c输入M头注意力网络的第一线性层，得到Query参数（即第一注意力参数），记为Q；将F_s输入M头注意力网络的第二线性层，得到Key参数（即第二注意力参数），记为K；将F_s输入M头注意力网络的第三线性层，得到Value参数（即第二注意力参数），记为V；将Q与V做内积计算并基于Softmax函数得到注意力权值A，并根据注意力权值对第三注意力参数V进行加权，得到加权特征；将加权特征和第一注意力参数Q进行融合，得到融合特征；将融合特征输入注意力网络中的第四线性层，得到第四线性层输出的中间特征S；将中间特征S与第一待处理字符的内容特征f_c进行拼接，得到第一待处理字符对应的目标特征f_c,r，其中，可以在通道维度对中间特征S与第一待处理字符的内容特征f_c进行拼接，得到2c×h×w的立体的目标特征。

其中，图4中的M是指多头注意力网络包含的注意力头个数，m是指M个注意力头中的某个注意力头。

步骤309，对目标特征进行解码，得到预测图像，其中，预测图像中包括具有参考风格的第二待处理字符。

步骤309的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的字体生成方法，通过将第二注意力参数与第一注意力参数内积后进行归一化，得到注意力权值；根据注意力权值对第三注意力参数进行加权，以得到加权特征；根据加权特征生成目标特征。由此，可以实现基于注意力机制对各注意力参数进行处理，以得到目标特征，可以提升目标特征生成的有效性和准确性。

为了实现上述字体生成方法所对应的各实施例，本公开还提出了字体生成模型的训练方法。

图5为本公开实施例四所提供的字体生成模型的训练方法的流程示意图。

如图5所示，该字体生成模型的训练方法可以包括以下步骤：

步骤501，获取样本图像、目标图像及参考图像。

其中，样本图像中可以包括具有第一风格的样本字符，目标图像中可以包括具有第二风格的样本字符，参考图像中可以包括具有第二风格的参考字符。

其中，具有第一风格的样本字符可以是规范字体的字符，比如，可以为楷体、宋体、黑体等，本公开对此不做限制。其中，样本字符的个数可以为一个，或者也可以为多个，本公开对此并不作出限制。

在本公开实施例中，对样本图像的获取方式不作限制，比如，样本图像可以从现有的训练集获取，或者，样本图像也可以在线采集，比如可以通过网络爬虫技术在线获取样本图像，或者，样本图像也可以为用户提供的，比如，用户可以在Word文档中输入第一风格的样本字符，再将Word文档转换成PDF（Portable Document Format，可携带文档格式）格式的文档，之后再将PDF文档转换成JPG（Joint Photographic Experts Group，联合图像专家组）格式的图像，从而得到样本图像，再比如，用户可以通过图像采集设备（比如相机、移动终端等）对包含第一风格的字符的纸质文档进行拍照，得到图像文件格式的样本图像，等等，本公开对此不做限制。

在本公开实施例中，目标图像中可以包括具有第二风格的样本字符，具有第二风格的样本字符可以为非规范字体的字符。其中，第二风格可以是第一风格的样本字符待转换的风格，即第二风格与第一风格不同，比如，第一风格可以为规范字体的风格，第二风格可以为手写字体的风格。

需要说明的是，目标图像的获取方式与样本图像的获取方式类似，在此不做赘述。

在本公开实施例中，参考图像中可以包括具有第二风格的参考字符，其中，参考字符的个数可以为一个，或者也可以为多个，本公开对此不做限制。

在本公开实施例中，参考图像可以为用户提供的，或者也可以为基于设定规则生成的，本公开对此并不做限制。

需要说明的是，参考字符与样本字符可以相同，或者也可以不同，本公开对此并不做限制。例如，至少一个参考字符中可以包括样本字符，比如，假设样本字符为“开”，则参考字符可以包括“开”、“心”等，或者，至少一个参考字符中也可以不包括样本字符，比如，假设样本字符为“泞”，则参考字符可以包括“没”、“家”、“灯”等。

步骤502，采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征。

在本公开实施例中，可以采用初始字体生成模型分别对样本图像和参考图像进行编码，从而得到样本图像中样本字符的内容特征以及参考图像中各参考字符的风格特征（本公开中记为第一风格特征）。

作为一种示例，采用初始字体生成模型分别对样本图像和参考图像进行编码，得到的样本图像中样本字符的内容特征可以为c（通道）×h（高）×w（宽）的立体的内容特征，得到的参考图像中各参考字符的第一风格特征可以为c（通道）×h（高）×w（宽）的立体的风格特征。

在本公开实施例的一种可能的实现方式中，为了实现准确获取样本图像中样本字符的内容特征以及参考图像中各参考字符的第一风格特征，本公开中，初始字体生成模型可以包括内容编码网络和风格编码网络，可以采用初始字体生成模型中的内容编码网络对样本图像进行编码，得到样本图像中样本字符的内容特征；且，可以采用初始字体生成模型中的风格编码网络对参考图像进行编码，得到参考图像中各参考字符的第一风格特征。

步骤503，将内容特征和第一风格特征进行融合，以得到第一目标特征。

在本公开实施例中，可以将样本字符的内容特征和各参考字符的第一风格特征进行融合，从而得到样本字符对应的目标特征（本公开中记为第一目标特征）。

例如，假设参考字符的个数为k个，则可以将样本字符的内容特征与k个参考字符的风格特征进行融合，以得到第一目标特征。

步骤504，采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

在本公开实施例中，可以采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

在本公开实施例的一种可能的实现方式中，初始字体生成模型可以包括解码网络，可以采用初始字体生成模型中的解码网络对第一目标特征进行解码，得到第一预测图像。

需要说明的是，当样本字符的个数为多个时，可以通过上述步骤确定每个样本字符对应的第一目标特征，从而可以采用初始字体生成模型对各样本字符对应的第一目标特征进行解码，得到第一预测图像。

步骤505，根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。

在本公开实施例中，可以根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。

可以理解的是，当目标图像和第一预测图像之间存在差异时，表明初始字体生成模型的精度不高，为了提升初始字体生成模型预测结果的准确性和可靠性，提升模型的预测精度，可以调整初始字体生成模型中的模型参数，即在本公开中，可以根据目标图像和第一预测图像之间的差异，对初始字体生成模型中的模型参数进行调整。

作为一种可能的实现方式，可以根据目标图像和第一预测图像之间的差异，生成损失值，其中，损失值与上述差异为正向关系（即呈正相关关系），即差异越小，损失值的取值越小，反之，差异越大，损失值的取值越大，从而本公开中，可以根据损失值，对初始字体生成模型中的模型参数进行调整，以使损失值的取值最小化。

需要说明的是，上述仅以初始字体生成模型训练的终止条件为损失值的取值最小化进行示例，实际应用时，也可以设置其他的终止条件，比如，终止条件可以为训练次数达到设定次数，或者，终止条件可以训练时长达到设定时长，等等，本公开对此并不做限制。

本公开实施例的字体生成模型的训练方法，通过获取样本图像、目标图像及参考图像，其中，样本图像中包括具有第一风格的样本字符，目标图像中包括具有第二风格的样本字符，参考图像中包括具有第二风格的参考字符；采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征；将内容特征和第一风格特征进行融合，得到第一目标特征；采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像；根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。由此，基于深度学习技术，对初始字体生成模型进行训练，可以提升模型预测结果的准确性和可靠性。

为了清楚说明本公开任一实施例中，是如何获取参考图像的，本公开还提出一种字体生成模型的训练方法。

图6为本公开实施例五所提供的字体生成模型的训练方法的流程示意图。

如图6所示，该字体生成模型的训练方法可以包括以下步骤：

步骤601，获取样本图像和目标图像。

其中，样本图像中可以包括具有第一风格的样本字符，目标图像中可以包括具有第二风格的样本字符。

步骤601的解释说明可以参见步骤501中的相关描述，在此不做赘述。

步骤602，对样本字符进行分解，得到至少一个组件。

在本公开实施例中，可以对样本字符进行分解，得到至少一个组件。

作为一种示例，可以采用树结构将样本字符进行分解，比如，样本字符为“潮”，可以采用如图7所示的字体分解树，对该样本字符进行分解，得到“潮”对应的组件可以包括“氵”、“朝”、“月”、“十”、“日”、“早”等。其中，图7为字符“潮”对应的字体分解树。

其中，可以预先建立各字符对应的字体分解树，并建立字符和字体分解树之间的对应关系，从而本公开中，可以根据样本字符查询上述对应关系，以确定与样本字符对应的字体分解树。

步骤603，从设定的多个具有第二风格的候选字符中，确定与至少一个组件匹配的参考字符。

在本公开实施例中，候选字符可以是预先设定的具有第二风格的字符。

在本公开实施例中，可以从设定的多个具有第二风格的候选字符中，确定与至少一个组件匹配的参考字符。

比如，设定的候选字符为“韩”、“泪”、“目”、“古”、“树”、“人”，样本字符为“早”，对样本字符分解得到的组件为“早”、“日”、“十”，从上述候选字符中确定与上述组件匹配的参考字符包括“韩”、“古”。

步骤604，根据与至少一个组件匹配的参考字符，生成参考图像。

在本公开实施例中，可以根据与至少一个组件匹配的参考字符，生成参考图像。

作为一种示例，在确定与至少一个组件匹配的参考字符后，可以根据上述参考字符进行图像绘制，得到参考图像，其中，参考图像中包括具有第二风格的各参考字符。

步骤605，采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征。

步骤606，将内容特征和第一风格特征进行融合，得到第一目标特征。

步骤607，采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

步骤608，根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。

步骤605至608的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的字体生成模型的训练方法，通过对样本字符进行分解，得到至少一个组件；从设定的多个具有第二风格的候选字符中，确定与至少一个组件匹配的参考字符；根据与至少一个组件匹配的参考字符，生成参考图像。由此，采用对样本字符进行分解的方式，得到各组件，并从具有第二风格的候选字符中确定与各组件匹配的参考字符，可以实现从多个候选字符中筛选与样本字符字形相似的各个参考字符，从而模型可以学习与样本字符字形相似的各参考字符的风格，并基于与样本字符字形相似的各参考字符的风格，对样本字符的风格进行迁移，可以提升字体风格的迁移效果，即提升模型预测结果的准确性。

为了清楚说明本公开任一实施例中是如何将样本字符的内容特征和参考字符的第一风格特征进行融合，得到样本字符的第一目标特征的，本公开还提出一种字体生成模型的训练方法。

图8为本公开实施例六所提供的字体生成模型的训练方法的流程示意图。

如图8所示，该字体生成模型的训练方法可以包括以下步骤：

步骤801，获取样本图像、目标图像及参考图像。

其中，样本图像中包括具有第一风格的样本字符，目标图像中包括具有第二风格的样本字符，参考图像中包括至少一个具有第二风格的参考字符。

步骤802，采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征。

步骤801至802的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤803，将内容特征输入初始字体生成模型的注意力网络的第一线性层，得到第一线性层输出的第一注意力参数。

在本公开实施例中，初始字体生成模型中可以包括注意力网络（比如多头注意力网络），其中，注意力网络中可以包括第一线性层。

在本公开实施例中，可以将样本字符的内容特征输入初始字体生成模型的注意力网络的第一线性层进行线性映射处理，得到第一线性层输出的第一注意力参数。

作为一种示例，标记内容特征为f_c，可以将该f_c输入初始字体生成模型的注意力网络的第一线性层，第一线性层对f_c进行线性映射处理，输出的第一注意力参数为Query参数。

步骤804，将第一风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数。

在本公开实施例中，注意力网络还可以包括第二线性层，可以将各参考字符的第一风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数。

作为一种示例，标记第i个参考字符的第一风格特征为f_i，i=1,2,…,k，k为参考字符的个数，可以将F_s(={f₁,f₂,…,f_k})输入初始字体生成模型中的注意力网络的第二线性层，得到第二线性层输出的第二注意力参数为Key参数。

步骤805，将第一风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数。

在本公开实施例中，注意力网络还可以包括第三线性层，可以将各参考字符的第一风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数。

作为一种示例，标记第i个参考字符的第一风格特征为f_i，i=1,2,…,k，k为参考字符的个数，可以将F_s(={f₁,f₂,…,f_k})输入初始字体生成模型中的注意力网络的第三线性层，得到第三线性层输出的第三注意力参数为Value参数。

步骤806，根据第一注意力参数、第二注意力参数和第三注意力参数，确定第一目标特征。

在本公开实施例中，可以根据第一注意力参数、第二注意力参数和第三注意力参数，确定样本字符对应的第一目标特征。

步骤807，采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

步骤808，根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。

步骤807至808的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的字体生成模型的训练方法，通过将内容特征输入初始字体生成模型的注意力网络的第一线性层，得到第一线性层的输出的第一注意力参数；将第一风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数；将第一风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数；根据第一注意力参数、第二注意力参数和第三注意力参数，确定第一目标特征。由此，可以实现基于注意力机制，将待处理字符的内容特征和参考字符的风格特征进行融合，可以提升融合结果的准确性和可靠性。

为了清楚说明本公开任一实施例中，是如何根据第一注意力参数、第二注意力参数和第三注意力参数，确定样本字符对应的第一目标特征的，本公开还提出一种字体生成模型的训练方法。

图9为本公开实施例七所提供的字体生成模型的训练方法的流程示意图。

如图9所示，该字体生成模型的训练方法可以包括以下步骤：

步骤901，获取样本图像、目标图像及参考图像。

步骤902，采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征。

步骤903，将内容特征输入初始字体生成模型的注意力网络的第一线性层，得到第一线性层输出的第一注意力参数。

步骤904，将第一风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数。

步骤905，将第一风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数。

步骤901至905的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤906，将第二注意力参数与第一注意力参数内积后进行归一化，得到注意力权值。

步骤907，根据注意力权值对第三注意力参数进行加权，得到加权特征。

在本公开实施例中，可以根据注意力权值对第三注意力参数进行加权，得到加权特征。

作为一种示例，可以根据公式（1）得到加权特征。

步骤908，根据加权特征生成第一目标特征。

在本公开实施例中，可以根据加权特征生成样本字符对应的第一目标特征。

在本公开实施例的一种可能的实现方式中，可以将加权特征和第一注意力参数进行融合，得到融合特征，并将融合特征输入注意力网络中的第四线性层，得到第四线性层输出的中间特征，从而可以将中间特征与样本字符的内容特征进行拼接，以得到样本字符的第一目标特征。

作为一种示例，可以将加权特征和第一注意力参数进行相加，得到融合特征，并将融合特征输入该注意力网络中的第四线性层进行线性映射处理，得到第四线性层输出的中间特征，从而可以将中间特征与样本字符的内容特征进行拼接，得到该样本字符对应的第一目标特征。

作为一种示例，可以采用图4中的注意力网络将样本字符的内容特征和各参考字符的第一风格特征进行融合，具体过程可以参见步骤308中的相关描述，在此不做赘述。

综上，可以实现根据加权特征生成样本字符对应的第一目标特征。可以理解的是，由于加权特征是基于注意力机制，对内容特征和第一风格特征进行融合后得到的，该加权特征已融合了样本字符的内容信息和参考字符的风格信息，采用注意力网络进一步对该加权特征进行处理，以得到样本字符的第一目标特征，可以提升第一目标特征生成结果的准确性。

步骤909，采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

步骤910，根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。

步骤909至910的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的字体生成模型的训练方法，通过将第二注意力参数与第一注意力参数内积后进行归一化，得到注意力权值；根据注意力权值对第三注意力参数进行加权，得到加权特征；根据加权特征生成第一目标特征。由此，可以实现基于注意力机制对各注意力参数进行处理，得到目标特征，可以提升目标特征生成的有效性和准确性。

为了清楚说明本公开任一实施例中是如何根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练的，本公开还提出一种字体生成模型的训练方法。

图10为本公开实施例八所提供的字体生成模型的训练方法的流程示意图。

如图10所示，该字体生成模型的训练方法可以包括以下步骤：

步骤1001，获取样本图像、目标图像及参考图像。

步骤1002，采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征。

步骤1003，将内容特征和第一风格特征进行融合，得到第一目标特征。

步骤1004，采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

步骤1001至1004的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤1005，采用初始字体生成模型对目标图像中的样本字符进行编码，得到样本字符的第二风格特征。

在本公开实施例中，可以采用初始字体生成模型对目标图像中的样本字符进行编码，以得到样本字符的风格特征（本公开中记为第二风格特征）。

作为一种示例，采用初始字体生成模型对目标图像中的样本字符进行编码，得到的目标图像中样本字符的第二风格特征可以为c（通道）×h（高）×w（宽）的立体的风格特征。

作为一种可能的实现方式，为了准确获取目标图像中样本字符的第二风格特征，初始字体生成模型可以包括风格编码网络，可以采用初始字体生成模型中的风格编码网络对目标图像进行编码，得到目标图像中样本字符的第二风格特征。

步骤1006，将第二风格特征和内容特征进行融合，得到第二目标特征。

在本公开实施例中，可以将样本字符的第二风格特征和样本字符的内容特征进行融合，得到样本字符的第二目标特征。

作为一种可能的实现方式，可以将内容特征输入初始字体生成模型的注意力网络的第一线性层，得到第一线性层输出的第一注意力参数Q；将第二风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第四注意力参数K；将第二风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第五注意力参数V；根据第一注意力参数、第四注意力参数和第五注意力参数，确定第二目标特征。

作为一种可能的实现方式，可以将第四注意力参数与第一注意力参数内积后进行归一化，得到注意力权值；根据注意力权值对第五注意力参数进行加权，得到加权特征；根据加权特征生成第二目标特征。比如，可以将加权特征和第一注意力参数进行融合，得到融合特征，并将融合特征输入注意力网络中的第四线性层，得到第四线性层输出的中间特征，从而可以将中间特征与内容特征进行拼接，以得到第二目标特征。

作为一种示例，可以采用图4中的注意力网络层将内容特征和第二风格特征进行融合，具体过程可以参见步骤308中的相关描述，在此不做赘述。

步骤1007，采用初始字体生成模型对第二目标特征进行解码，得到第二预测图像。

在本公开实施例中，可以采用初始字体生成模型对第二目标特征进行解码，得到第二预测图像。

作为一种可能的实现方式，采用初始字体生成模型可以包括解码网络，可以采用初始字体生成模型的解码网络对第二目标特征进行解码，得到第二预测图像。

步骤1008，根据目标图像和第一预测图像之间的差异，以及根据目标图像和第二预测图像之间的差异，对初始字体生成模型进行训练。

在本公开实施例中，可以根据目标图像和第一预测图像之间的差异，以及根据目标图像和第二预测图像之间的差异，对初始字体生成模型进行训练。

作为一种可能的实现方式，可以根据目标图像和第一预测图像之间的差异（本公开中记为第一差异），以及根据目标图像和第二预测图像之间的差异（本公开中记为第二差异），生成损失值，其中，损失值与上述第一差异为正向关系（即呈正相关关系），即第一差异越小，损失值的取值越小，反之，第一差异越大，损失值的取值越大，且，损失值与上述第二差异也为正向关系（即呈正相关关系），即第二差异越小，损失值的取值越小，反之，第二差异越大，损失值的取值越大。从而本公开中，可以根据损失值，对初始字体生成模型中的模型参数进行调整，以使损失值的取值最小化。

本公开实施例的字体生成模型的训练方法，通过采用初始字体生成模型对目标图像中的样本字符进行编码，得到样本字符的第二风格特征；将第二风格特征和内容特征进行融合，得到第二目标特征；采用初始字体生成模型对第二目标特征进行解码，得到第二预测图像；根据目标图像和第一预测图像之间的差异，以及根据目标图像和第二预测图像之间的差异，对初始字体生成模型进行训练。由此，采用自重构的方式，将目标图像中样本字符的风格信息与样本图像中样本字符的内容信息进行融合，以得到自重构图像（即第二预测图像），并同时基于第一预测图像和目标图像之间的差异，以及第二预测图像和目标图像之间的差异，对模型进行训练，可以提升模型的表现和性能，从而提升模型预测结果的准确性和可靠性。

为了清楚说明本公开任一实施例中，是如何根据目标图像和第一预测图像之间的差异，以及根据目标图像和第二预测图像之间的差异，对初始字体生成模型进行训练的，本公开还提出一种字体生成模型的训练方法。

图11为本公开实施例九所提供的字体生成模型的训练方法的流程示意图。

如图11所示，该字体生成模型的训练方法可以包括以下步骤：

步骤1101，获取样本图像、目标图像及参考图像。

步骤1102，采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征。

步骤1103，将内容特征和第一风格特征进行融合，得到第一目标特征。

步骤1104，采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

步骤1105，采用初始字体生成模型对目标图像中的样本字符进行编码，得到样本字符的第二风格特征。

步骤1106，将第二风格特征和内容特征进行融合，得到第二目标特征。

步骤1107，采用初始字体生成模型对第二目标特征进行解码，得到第二预测图像。

步骤1101至1107的执行过程，可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤1108，根据目标图像和第一预测图像之间的差异，生成第一子损失值。

在本公开实施例中，可以根据目标图像和第一预测图像之间的差异，生成第一子损失值。其中，第一子损失值与上述差异为正向关系（即呈正相关关系），即差异越小，第一子损失值的取值越小，反之，差异越大，第一子损失值的取值越大。

作为一种示例，可以将目标图像中每一个像素点的像素值与第一预测图像中对应像素点的像素值作差，以得到各像素点对应的差值，从而可以根据各像素点的差值，生成第一子损失值。比如，目标图像为I_GT，第一预测图像为I₀，第一子损失值可以为||I₀-I_GT||₁。

步骤1109，根据目标图像和第二预测图像之间的差异，生成第二子损失值。

在本公开实施例中，可以根据目标图像和第二预测图像之间的差异，生成第二子损失值。其中，第二子损失值与上述差异为正向关系（即呈正相关关系），即差异越小，第二子损失值的取值越小，反之，差异越大，第二子损失值的取值越大。

作为一种示例，可以将目标图像中每一个像素点的像素值与第二预测图像中对应像素点的像素值作差，以得到各像素点对应的差值，从而可以根据各像素点的差值，生成第二子损失值。比如，目标图像为I_GT，第二预测图像为Ĩ₀，第二子损失值可以为||Ĩ₀-I_GT||₁。

步骤1110，根据第一子损失值和第二子损失值，生成第一损失值。

在本公开实施例中，可以根据第一子损失值和第二子损失值，生成第一损失值。其中，第一损失值与第一子损失值为正向关系（即呈正相关关系），且第一损失值与第二子损失值也为正向关系（即呈正相关关系）。

作为一种示例，可以根据第一子损失值和第二子损失值，按照以下公式，对其求取期望值（或平均值），从而获取第一损失值L_l1：

L_l1=E[||I₀-I_GT||₁+||Ĩ₀-I_GT||₁]；（2）

其中，目标图像为I_GT，第一预测图像为I₀，第二预测图像为Ĩ₀。

步骤1111，根据第一损失值，对初始字体生成模型进行训练。

在本公开实施例中，可以根据第一损失值，对初始字体生成模型进行训练。

作为一种示例，可以根据第一损失值，对初始字体生成模型中的模型参数进行调整，以使第一损失值的取值最小化。

需要说明的是，上述仅以初始字体生成模型训练的终止条件为第一损失值的取值最小化进行示例，实际应用时，也可以设置其他的终止条件，比如，终止条件可以为训练次数达到设定次数，或者，终止条件可以训练时长达到设定时长，等等，本公开对此并不做限制。

在本公开实施例的一种可能的实现方式中，为了提升模型的预测效果，该初始字体生成模型可以为GAN网络，其中，初始字体生成模型可以包括生成器和鉴别器（或称为判别器），生成器可以包括风格编码网络、内容编码网络、注意力网络和解码网络，鉴别器用于鉴别输入的图像是否是生成器生成的。可以将目标图像、第一预测图像和/或第二预测图像输入至鉴别器中，根据鉴别器的输出，指导模型训练。

作为一种示例，初始字体生成模型可以包括第一鉴别器，可以将目标图像输入初始字体生成模型中的第一鉴别器，得到第一鉴别器输出的第一输出值，并将第一预测图像输入第一鉴别器，得到第一鉴别器输出的第二输出值，从而可以根据第一输出值和第二输出值，生成第二损失值，并根据第二损失值和第一损失值，生成第一目标损失值，以根据第一目标损失值，对初始字体生成模型进行训练。

其中，该第一鉴别器可以用于鉴别输入图像中的字符内容是否是生成器生成的，即用于判断输入图像的真假，可以用概率分布表示。

作为一种示例，标记目标图像为I_GT，第一预测图像为I₀，可以将目标图像I_GT输入初始字体生成模型中的第一鉴别器，得到第一鉴别器输出的第一输出值，第一输出值可以为D_c(I_GT)；将第一预测图像I₀输入第一鉴别器，得到第一鉴别器输出的第二输出值，第二输出值可以为D_c(I₀)；为了判断输入图像的真假，可以根据第一输出值和第二输出值，按照以下公式确定第二损失值L_char：

；（3）

其中，E[·]表示分布函数的期望，G表征生成器，D_c表征第一鉴别器，D_c(I_GT)表示第一鉴别器判断输入的目标图像不是生成器生成的概率分布，即判断输入的目标图像为真的概率，D_c(I₀)表示第一鉴别器判断输入的第一预测图像不是生成器生成的概率分布，即判断输入的第一预测图像为真的概率，此时，生成器要最小化目标，第一鉴别器要最大化目标。

在获取第二损失值后，可以根据第二损失值和第一损失值，按照以下公式，生成第一目标损失值L_obj1：

；（4）

其中，λ_adv、λ_l1分别为第二损失值和第一损失值的权重，λ_adv比如可以为1，λ_l1比如可以为0.1。

需要说明的是，对公式（4）中第一损失值的权重和第二损失值的权重的设置，可以根据实际需求进行设置，本公开对此不做限制。

从而，在获取第一目标损失值后，可以根据第一目标损失值，对初始字体生成模型进行迭代训练，以使第一目标损失值最小化。

需要说明的是，上述仅以初始字体生成模型训练的终止条件为第一目标损失值的取值最小化进行示例，实际应用时，也可以设置其他的终止条件，比如，终止条件可以为训练次数达到设定次数，或者，终止条件可以训练时长达到设定时长，等等，本公开对此并不做限制。

由此，可以实现通过第一鉴别器，对初始字体生成模型中生成的字符进行监督，并根据监督到的结果对初始字体生成模型进行训练，使得模型能够学习到正确的字符内容特征，从而提升模型的预测精度。也就是说，可以实现基于第一鉴别器的输出，对初始字体生成模型进行监督训练，以提升模型的训练效果，即提升模型的预测精度。

在本公开实施例的另一种可能的实现方式中，初始字体生成模型还可以包括第二鉴别器，可以将目标图像输入初始字体生成模型中的第二鉴别器，得到第二鉴别器输出的第三输出值，并将第二预测图像输入第二鉴别器，得到第二鉴别器输出的第四输出值，从而可以根据第三输出值和第四输出值，生成第三损失值，并根据第三损失值和第一损失值，生成第二目标损失值，以根据第二目标损失值，对初始字体生成模型进行训练。

其中，该第二鉴别器可以用于鉴别输入图像中的字符风格是否是生成器生成的，即用于判断输入图像的真假。

作为一种示例，标记目标图像为I_GT，第二预测图像为Ĩ₀，可以将目标图像I_GT输入初始字体生成模型中的第二鉴别器，得到第二鉴别器输出的第三输出值，第三输出值可以为D_s(I_GT)；将第二预测图像Ĩ₀输入第二鉴别器，得到第二鉴别器输出的第四输出值，第四输出值可以为D_s(Ĩ₀)；为了判断输入图像的真假，可以根据第三输出值和第四输出值，按照以下公式确定第三损失值L_style：

；（5）

其中，E[·]表示分布函数的期望，G表征生成器，D_s表征第二鉴别器，D_s[I_GT]表示第二鉴别器判断输入的目标图像不是生成器生成的概率分布，即判断输入的目标图像为真的概率，D_s(Ĩ₀)表示第二鉴别器判断输入的第二预测图像不是生成器生成的概率分布，即判断输入的第二预测图像为真的概率，此时，生成器要最小化目标，第二鉴别器要最大化目标。

在获取第三损失值后，可以根据第三损失值和第一损失值，按照以下公式，生成第二目标损失值L_obj2：

；（6）

其中，

、

分别为第三损失值和第一损失值的权重，

比如可以为1，

比如可以为0.1。

需要说明的是，对公式（6）中第一损失值的权重和第三损失值的权重的设置，可以根据实际需求进行设置，本公开对此不做限制。

从而，在获取第二目标损失值后，可以根据第二目标损失值，对初始字体生成模型进行迭代训练，以使第二目标损失值最小化。

需要说明的是，上述仅以初始字体生成模型训练的终止条件为第二目标损失值的取值最小化进行示例，实际应用时，也可以设置其他的终止条件，比如，终止条件可以为训练次数达到设定次数，或者，终止条件可以训练时长达到设定时长，等等，本公开对此并不做限制。

由此，可以实现通过第二鉴别器，对初始字体生成模型中生成的字符风格进行监督，并根据监督到的结果对初始字体生成模型进行训练，使得模型能够学习到正确的字符风格特征，从而提升模型的预测精度。也就是说，可以实现基于第二鉴别器的输出，对初始字体生成模型进行监督训练，以提升模型的训练效果，即提升模型的预测精度。

作为一种可能的实现方式，实际应用时，也可以同时根据第一损失值、第二损失值和第三损失值，对初始字体生成模型进行训练。比如，可以根据第一损失值、第二损失值和第三损失值，生成第三目标损失值，根据第三目标损失值，对初始字体生成模型进行训练，以提升模型的预测效果。

本公开实施例的生成字体模型的训练方法，通过根据目标图像和第一预测图像之间的差异，生成第一子损失值；根据目标图像和第二预测图像之间的差异，生成第二子损失值；根据第一损失值和第二损失值，生成第一损失值；根据第一损失值，对初始字体生成模型进行训练。由此，可以实现基于多个损失值对模型进行监督训练，可以提高模型的表现和性能，从而提升模型预测结果的准确性和可靠性。

作为一种示例，以生成字体模型为生成式对抗网络GAN进行示例，生成字体模型的结构可以如图12所示，字体风格迁移的流程为：主模型采用小样本领域风格迁移性能优异的少样本迁移模型，将包含一个域X的规范字符（比如楷体字符，记为x）的样本图像以及包含k个域Y的用户的手写风格字符（记为{y_i|i=1,2,…,k}）的参考图像输入该模型，模型输出的图像中的字符内容和规范字符x相同，且图像中的字符具有域Y风格（即手写风格）。

其中，生成字体模型主要包括编码网络（又称为编码器）和解码网络（又称为解码器）两个部分，其中，编码网络由两个结构不同的网络构成，一个用于计算输入规范字符的内容特征图，称为内容编码网络E_c；另一个用于计算输入手写风格字符的风格特征向量，称为风格编码网络E_r；解码网络可以将内容编码网络的输出与风格编码网络的输出的融合结果作为输入，逐步解码得到最终的迁移结果I₀。

生成字体模型的训练方法可以包括以下几个步骤：

1.获取样本图像，以样本字符为汉字进行示例性说明，可以采用图7的分解方法将样本图像中的规范字体的样本字符（在本公开中记为第一风格的样本字符）分解成若干组件，并预先设定具有第二风格（比如，手写字风格）的候选字符{y_i|i=1,2,…,N}，其中，N为候选字符的个数，且该N个候选字符所包含的组件可以组合成7000个汉字。针对任一样本字符，获取其对应的组件，并从N个候选字符中确定至少一个与组件匹配的k个参考字符{y_i|i=1,2,…,k}，从而可以根据k个参考字符生成参考图像。

2.在每个训练周期里，针对任一样本字符x，内容编码网络读入样本字符x，得到内容特征向量f_c；同时采用步骤1中的方法获取具有第二风格的参考字符的参考图像，并将参考图像输入风格编码网络，由风格编码网络提取k个参考字符的风格特征向量{f_i|i=1,2,…,k}。

3.将内容特征向量f_c输入如图4所示的风格融合模块（在本公开中记为注意力网络）的第一线性层，得到第一注意力参数Query参数，记为Q；将F_s(={f₁,f₂,…,f_k})输入风格融合模块的第二线性层，得到第二注意力参数Key参数，记为K；将F_s(={f₁,f₂,…,f_k})输入风格融合模块的第三线性层，得到第三注意力参数Value参数，记为V，并根据Q、K及V，得到融合了内容特征向量和第一风格特征向量的特征表达f_c,r（在本公开中记为第一目标特征）；将第一目标特征f_c,r输入解码网络，从而解码网络输出风格迁移后的手写字符图像I₀（在本公开中记为第一预测图像）。

4.加入自重构分支：获取包含具有第二风格的样本字符的目标图像I_GT，将目标图像输入风格编码网络，由风格编码网络对目标图像中的样本字符进行风格特征提取，得到样本字符的风格特征向量。并采用步骤3中的方法，将样本字符的风格特征向量和内容特征向量f_c进行融合，得到第二目标特征；将第二目标特征输入至解码网络进行解码，得到解码器输出的第二预测图像Ĩ₀。

5.在训练过程中，可以采用多个损失函数对模型进行监督：

5.1字符内容分类损失L_char：

将目标图像I_GT输入模型中的第一鉴别器，得到第一鉴别器输出的第一输出值D_c(I_GT)；将第一预测图像I₀输入第一鉴别器，得到第一鉴别器输出的第二输出值D_c(I₀)；根据第一输出值和第二输出值，生成第二损失值，其中，第二损失值可以由公式（3）确定。

其中，第一鉴别器还可以称为字符鉴别器。可以通过一系列样本图像和生成器生成的图像，来训练第一鉴别器，训练目标是每个字符分类头判别当前字来源于样本图像还是生成器所生成的图像。训练过程中，可以在训练一轮第一鉴别器后训练生成器，训练生成器时通过第一鉴别器约束生成器生成字符合预设的字符类别，而后对该第一鉴别器进行新一轮迭代。

5.2字符风格分类损失L_style：

将目标图像输入模型中的第二鉴别器，得到第二鉴别器输出的第三输出值D_s(I_GT)；将第二预测图像输入第二鉴别器，得到第二鉴别器输出的第四输出值D_s(Ĩ₀)；根据第三输出值和第四输出值，生成第三损失值，其中，第三损失值可以由公式（5）确定。

其中，第二鉴别器还可以称为字体鉴别器。可以通过一系列样本图像和生成器生成的图像，来训练第二鉴别器，训练目标是每个字体分类头判别当前字来源于样本图像还是生成器所生成的图像。训练过程中，可以在训练一轮第二鉴别器后训练生成器，训练生成器时通过第二鉴别器约束生成器生成字符合预设的字体类别，而后对该第二鉴别器进行新一轮迭代。

5.3字体重构损失L_l1：

将目标图像I_GT和第一预测图像I₀逐像素取差值，生成第一子损失值；将目标图像I_GT和第二预测图像Ĩ₀逐像素取差值，生成第二子损失值；根据第一子损失值和第二子损失值，按照公式（2）生成第一损失值。

6.通过梯度回传对生成器(Generator)进行迭代优化：

6.1根据第二损失值L_char和第一损失值L_l1，按照公式（4）生成第一目标损失值；并根据第一目标损失值，对初始字体生成模型进行训练。

6.2根据第三损失值L_style和第一损失值L_l1，按照公式（6）生成第二目标损失值；根据第二目标损失值，对初始字体生成模型进行训练。

6.3 根据第一损失值L_l1、第二损失值L_char和第三损失值L_style，生成第三目标损失值；根据第三目标损失值，对初始字体生成模型进行训练。

与目前的相关技术做对比，本公开的字体生成方法的优点可以从以下几点体现：

（1）在深度学习网络中嵌入了注意力机制，可以使得模型学习到字符的不同特征表达，并可以得到更好的风格建模。

（2）在模型的训练过程中，加入了一个自重构分支，可以帮助网络模型更好更快的收敛。

（3）加入了一种自适应的挑选参考字符的算法，可以帮助网络能够全面而有效的学习与样本字符中各个组件对应的参考字符的手写风格。

通过上述三种方法的组合，可以在少量手写风格字符的情况下，训练出一个能够产生大量用户手写风格字符的模型，其中，本公开的字体生成方法可以应用到，比如输入法、用户手写字体定制等多个项目或产品中，提升该方法的适用性。

与上述图1至图3实施例提供的字体生成方法相对应，本公开还提供一种字体生成装置，由于本公开实施例提供的字体生成装置与上述图1至图3实施例提供的字体生成方法相对应，因此在字体生成方法的实施方式也适用于本公开实施例提供的字体生成装置，在本公开实施例中不再详细描述。

图13为本公开实施例十所提供的字体生成装置的结构示意图。

如图13所示，该字体生成装置1300可以包括：获取模块1301、编码模块1302、融合模块1303及解码模块1304。

其中，获取模块1301，用于获取待处理图像和参考图像。

编码模块1302，用于分别对待处理图像和参考图像进行编码，以得到待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征。

融合模块1303，用于针对任一第一待处理字符，将内容特征和风格特征进行融合，得到目标特征。

解码模块1304，用于对目标特征进行解码，得到预测图像，其中，预测图像中包括具有参考风格的第二待处理字符。

在本公开实施例的一种可能的实现方式中，融合模块1303，用于：针对任一第一待处理字符，将内容特征输入字体生成模型的注意力网络的第一线性层，得到第一线性层输出的第一注意力参数；将风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数；将风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数；根据第一注意力参数、第二注意力参数和第三注意力参数，确定目标特征。

在本公开实施例的一种可能的实现方式中，融合模块1303，用于：将第二注意力参数与第一注意力参数内积后进行归一化，得到注意力权值；根据注意力权值对第三注意力参数进行加权，得到加权特征；根据加权特征生成目标特征。

在本公开实施例的一种可能的实现方式中，融合模块1303，用于：将加权特征和第一注意力参数进行融合，得到融合特征；将融合特征输入注意力网络中的第四线性层，得到中间特征；将中间特征与内容特征进行拼接，以得到目标特征。

在本公开实施例的一种可能的实现方式中，编码模块1302，用于：采用字体生成模型中的内容编码网络对第一待处理字符进行编码，得到内容特征；采用字体生成模型中的风格编码网络对参考字符进行编码，得到风格特征。

在本公开实施例的一种可能的实现方式中，解码模块1304用于：采用字体生成模型中的解码网络对目标特征进行解码，得到预测图像。

本公开实施例的字体生成装置，通过获取待处理图像和参考图像；分别对待处理图像和参考图像进行编码，得到待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征；针对任一第一待处理字符，将内容特征和风格特征进行融合，得到目标特征；对目标特征进行解码，得到预测图像，其中，预测图像中包括具有参考风格的第二待处理字符。由此，可以实现将参考图像中具有参考风格的各字符的风格特征，融合进待处理图像中各字符的内容特征中，从而可以使得解码后的预测图像中各字符具有参考图像中的参考风格，提升预测图像中各字符的生成效果或风格迁移效果，即提升预测图像生成结果的准确性，以改善用户的使用体验。

与上述图5至图11实施例提供的字体生成模型的训练方法相对应，本公开还提供一种字体生成模型的训练装置，由于本公开实施例提供的字体生成模型的训练装置与上述图5至图11实施例提供的字体生成模型的训练方法相对应，因此在字体生成模型的训练方法的实施方式也适用于本公开实施例提供的字体生成模型的训练装置，在本公开实施例中不再详细描述。

图14为本公开实施例十一所提供的字体生成模型的训练装置的结构示意图。

如图14所示，该字体生成模型的训练装置1400可以包括：第一发送模块1401及第二发送模块1402。

其中，获取模块1401，用于获取样本图像、目标图像及参考图像，其中，样本图像中包括具有第一风格的样本字符，目标图像中包括具有第二风格的样本字符，参考图像中包括具有第二风格的参考字符。

编码模块1402，用于采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征。

融合模块1403，用于将内容特征和第一风格特征进行融合，得到第一目标特征。

解码模块1404，用于采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像。

训练模块1405，用于根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。

在本公开实施例的一种可能的实现方式中，获取模块1401，用于：对样本字符进行分解，得到至少一个组件；从设定的多个具有第二风格的候选字符中，确定与至少一个组件匹配的参考字符；根据与至少一个组件匹配的参考字符，生成参考图像。

在本公开实施例的一种可能的实现方式中，融合模块1403，用于：将内容特征输入初始字体生成模型的注意力网络的第一线性层，得到第一线性层输出的第一注意力参数；将第一风格特征输入注意力网络中的第二线性层，得到第二线性层输出的第二注意力参数；将第一风格特征输入注意力网络中的第三线性层，得到第三线性层输出的第三注意力参数；根据第一注意力参数、第二注意力参数和第三注意力参数，确定第一目标特征。

在本公开实施例的一种可能的实现方式中，融合模块1403，用于：将第二注意力参数与第一注意力参数内积后进行归一化，得到注意力权值；根据注意力权值对第三注意力参数进行加权，得到加权特征；根据加权特征生成第一目标特征。

在本公开实施例的一种可能的实现方式中，融合模块1403，用于：将加权特征和第一注意力参数进行融合，得到融合特征；将融合特征输入注意力网络中的第四线性层，得到中间特征；将中间特征与内容特征进行拼接，得到第一目标特征。

在本公开实施例的一种可能的实现方式中，训练模块1405，用于：采用初始字体生成模型对目标图像中的样本字符进行编码，得到样本字符的第二风格特征；将第二风格特征和内容特征进行融合，得到第二目标特征；采用初始字体生成模型对第二目标特征进行解码，得到第二预测图像；根据目标图像和第一预测图像之间的差异，以及根据目标图像和第二预测图像之间的差异，对初始字体生成模型进行训练。

在本公开实施例的一种可能的实现方式中，训练模块1405，用于：根据目标图像和第一预测图像之间的差异，生成第一子损失值；根据目标图像和第二预测图像之间的差异，生成第二子损失值；根据第一子损失值和第二子损失值，生成第一损失值；根据第一损失值，对初始字体生成模型进行训练。

在本公开实施例的一种可能的实现方式中，训练模块1405，用于：将目标图像输入初始字体生成模型中的第一鉴别器，得到第一鉴别器输出的第一输出值；将第一预测图像输入第一鉴别器，得到第一鉴别器输出的第二输出值；根据第一输出值和第二输出值，生成第二损失值；根据第二损失值和第一损失值生成第一目标损失值；根据第一目标损失值，对初始字体生成模型进行训练。

在本公开实施例的一种可能的实现方式中，训练模块1405，用于：将目标图像输入初始字体生成模型中的第二鉴别器，得到第二鉴别器输出的第三输出值；将第二预测图像输入第二鉴别器，得到第二鉴别器输出的第四输出值；根据第三输出值和第四输出值生成第三损失值；根据第三损失值和第一损失值，生成第二目标损失值；根据第二目标损失值，对初始字体生成模型进行训练。

本公开实施例的种字体生成模型的训练装置，通过获取样本图像、目标图像及参考图像，其中，样本图像中包括具有第一风格的样本字符，目标图像中包括具有第二风格的样本字符，参考图像中包括具有第二风格的参考字符；采用初始字体生成模型分别对样本图像和参考图像进行编码，得到样本图像中样本字符的内容特征以及参考图像中参考字符的第一风格特征；将内容特征和第一风格特征进行融合，得到第一目标特征；采用初始字体生成模型对第一目标特征进行解码，得到第一预测图像；根据目标图像和第一预测图像之间的差异，对初始字体生成模型进行训练。由此，基于深度学习技术对初始字体生成模型进行训练，可提升模型预测结果的准确性和可靠性。

为了实现上述实施例，本公开还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的字体生成方法或本公开上述任一实施例提出的字体生成模型的训练方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的字体生成方法或本公开上述任一实施例提出的字体生成模型的训练方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的字体生成方法或本公开上述任一实施例提出的字体生成模型的训练方法。根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，电子设备1500包括计算单元1501，其可以根据存储在ROM（Read-OnlyMemory，只读存储器）1502中的计算机程序或者从存储单元1508加载到RAM（Random AccessMemory，随机访问/存取存储器）1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储电子设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。I/O（Input/Output，输入/输出）接口1505也连接至总线1504。

电子设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许电子设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于CPU（Central Processing Unit，中央处理单元）、GPU（Graphic Processing Units，图形处理单元）、各种专用的AI（Artificial Intelligence，人工智能）计算芯片、各种运行机器学习模型算法的计算单元、DSP（Digital SignalProcessor，数字信号处理器）、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如上述字体生成方法或字体生成模型的训练方法。例如，在一些实施例中，上述字体生成方法或字体生成模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到电子设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的字体生成方法或字体生成模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行上述字体生成方法或字体生成模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA（Field Programmable Gate Array，现场可编程门阵列）、ASIC（Application-Specific Integrated Circuit，专用集成电路）、ASSP（Application Specific StandardProduct，专用标准产品）、SOC（System On Chip，芯片上系统的系统）、CPLD（ComplexProgrammable Logic Device，复杂可编程逻辑设备）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM（Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器）或快闪存储器、光纤、CD-ROM（Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（Cathode-Ray Tube，阴极射线管）或者LCD（Liquid Crystal Display，液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：LAN（LocalArea Network，局域网）、WAN（Wide Area Network，广域网）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（VirtualPrivate Server，虚拟专用服务器）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过获取待处理图像和参考图像；分别对待处理图像和参考图像进行编码，以得到待处理图像中第一待处理字符的内容特征以及参考图像中参考字符的风格特征；针对任一第一待处理字符，将内容特征和风格特征进行融合，以得到目标特征；对目标特征进行解码，得到预测图像，其中，预测图像中包括具有参考风格的第二待处理字符。由此，可以实现将参考图像中具有参考风格的各字符的风格特征，融合进待处理图像中各字符的内容特征中，提升预测图像中各字符的生成效果或字体风格的迁移效果，即提升预测图像生成结果的准确性，以改善用户的使用体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种字体生成方法，其特征在于，所述方法包括：

获取待处理图像和参考图像；

将所述内容特征与所述风格特征进行融合，得到目标特征；

对所述目标特征进行解码，得到预测图像，其中，所述预测图像包括具有参考风格的第二待处理字符。

2.根据权利要求1所述的方法，其特征在于，所述将所述内容特征和所述风格特征进行融合，得到目标特征，包括：

将所述内容特征输入字体生成模型的注意力网络的第一线性层，得到所述第一线性层输出的第一注意力参数；

将所述风格特征输入所述注意力网络中的第二线性层，得到所述第二线性层输出的第二注意力参数；

将所述风格特征输入所述注意力网络中的第三线性层，得到所述第三线性层输出的第三注意力参数；

根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述目标特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述目标特征，包括：

将所述第二注意力参数与所述第一注意力参数内积后进行归一化，得到注意力权值；

根据所述注意力权值对所述第三注意力参数进行加权，得到加权特征；

根据所述加权特征生成所述目标特征。

4.根据权利要求3所述的方法，其特征在于，所述根据所述加权特征生成所述目标特征，包括：

将所述加权特征和所述第一注意力参数进行融合，得到融合特征；

将所述融合特征输入所述注意力网络中的第四线性层，得到所述第四线性层输出的中间特征；

将所述中间特征与所述内容特征进行拼接，得到所述目标特征。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述分别对所述待处理图像和所述参考图像进行编码，得到所述待处理图像中第一待处理字符的内容特征以及所述参考图像中参考字符的风格特征，包括：

采用字体生成模型中的内容编码网络对所述第一待处理字符进行编码，得到所述内容特征；

采用所述字体生成模型中的风格编码网络对所述参考字符进行编码，得到所述风格特征。

6.根据权利要求5所述的方法，其特征在于，所述对所述目标特征进行解码，得到预测图像，包括：

采用所述字体生成模型中的解码网络对所述目标特征进行解码，得到所述预测图像。

7.一种字体生成模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述获取参考图像，包括：

对所述样本字符进行分解，得到至少一个组件；

从设定的多个具有所述第二风格的候选字符中，确定与所述至少一个组件匹配的参考字符；

根据与所述至少一个组件匹配的参考字符，生成所述参考图像。

9.根据权利要求7所述的方法，其特征在于，所述将所述内容特征和各所述第一风格特征进行融合，得到第一目标特征，包括：

将所述内容特征输入所述初始字体生成模型的注意力网络的第一线性层，得到所述第一线性层输出的第一注意力参数；

将所述第一风格特征输入所述注意力网络中的第二线性层，得到所述第二线性层输出的第二注意力参数；

将所述第一风格特征输入所述注意力网络中的第三线性层，得到所述第三线性层输出的第三注意力参数；

根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述第一目标特征。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数，确定所述第一目标特征，包括：

根据所述加权特征生成所述第一目标特征。

11.根据权利要求10所述的方法，其特征在于，所述根据所述加权特征生成所述第一目标特征，包括：

将所述中间特征与所述内容特征进行拼接，得到所述第一目标特征。

12.根据权利要求7-11中任一项所述的方法，其特征在于，所述根据所述目标图像和所述第一预测图像之间的差异，对所述初始字体生成模型进行训练，包括：

采用所述初始字体生成模型对所述目标图像中的所述样本字符进行编码，得到所述样本字符的第二风格特征；

将所述第二风格特征和所述内容特征进行融合，得到第二目标特征；

采用所述初始字体生成模型对所述第二目标特征进行解码，得到第二预测图像；

根据所述目标图像和所述第一预测图像之间的差异，以及根据所述目标图像和所述第二预测图像之间的差异，对所述初始字体生成模型进行训练。

13.根据权利要求12所述的方法，其特征在于，所述根据所述目标图像和所述第一预测图像之间的差异，以及根据所述目标图像和所述第二预测图像之间的差异，对所述初始字体生成模型进行训练，包括：

根据所述目标图像和所述第一预测图像之间的差异，生成第一子损失值；

根据所述目标图像和所述第二预测图像之间的差异，生成第二子损失值；

根据所述第一子损失值和所述第二子损失值，生成第一损失值；

根据所述第一损失值，对所述初始字体生成模型进行训练。

14.根据权利要求13所述的方法，其特征在于，所述根据所述第一损失值，对所述初始字体生成模型进行训练，包括：

将所述目标图像输入所述初始字体生成模型中的第一鉴别器，得到所述第一鉴别器输出的第一输出值；

将所述第一预测图像输入所述第一鉴别器，得到所述第一鉴别器输出的第二输出值；

根据所述第一输出值和所述第二输出值，生成第二损失值；

根据所述第二损失值和所述第一损失值，生成第一目标损失值；

根据所述第一目标损失值，对所述初始字体生成模型进行训练。

15.根据权利要求13所述的方法，其特征在于，所述根据所述第一损失值，对所述初始字体生成模型进行训练，包括：

将所述目标图像输入所述初始字体生成模型中的第二鉴别器，得到所述第二鉴别器输出的第三输出值；

将所述第二预测图像输入所述第二鉴别器，得到所述第二鉴别器输出的第四输出值；

根据所述第三输出值和所述第四输出值，生成第三损失值；

根据所述第三损失值和所述第一损失值，生成第二目标损失值；

根据所述第二目标损失值，对所述初始字体生成模型进行训练。

16.一种字体生成装置，其特征在于，所述装置包括：

获取模块，用于获取待处理图像和参考图像；

编码模块，用于分别对所述待处理图像和所述参考图像进行编码，得到所述待处理图像中第一待处理字符的内容特征以及所述参考图像中参考字符的风格特征；

17.根据权利要求16所述的装置，其特征在于，所述融合模块，用于：

将所述内容特征输入字体生成模型的注意力网络中的第一线性层，得到所述第一线性层输出的第一注意力参数；

将所述风格特征输入所述注意力网络的第二线性层，得到所述第二线性层输出的第二注意力参数；

18.根据权利要求17所述的装置，其特征在于，所述融合模块，用于：

根据所述加权特征生成所述目标特征。

19.根据权利要求18所述的装置，其特征在于，所述融合模块，用于：

20.根据权利要求16-19中任一项所述的装置，其特征在于，所述编码模块，用于：

21.根据权利要求20所述的装置，其特征在于，所述解码模块，用于：

22.一种字体生成模型的训练装置，其特征在于，所述装置包括：

23.根据权利要求22所述的装置，其特征在于，所述获取模块，用于：

对所述样本字符进行分解，得到至少一个组件；

24.根据权利要求22所述的装置，其特征在于，所述融合模块，用于：

将所述内容特征输入所述初始字体生成模型的注意力网络中的第一线性层，得到所述第一线性层输出的第一注意力参数；

25.根据权利要求24所述的装置，其特征在于，所述融合模块，用于：

根据所述加权特征生成所述第一目标特征。

26.根据权利要求25所述的装置，其特征在于，所述融合模块，用于：

27.根据权利要求22-26中任一项所述的装置，其特征在于，所述训练模块，用于：

28.根据权利要求27所述的装置，其特征在于，所述训练模块，用于：

根据所述第一损失值和所述第二损失值，生成第一损失值；

根据所述第一损失值，对所述初始字体生成模型进行训练。

29.根据权利要求28所述的装置，其特征在于，所述训练模块，用于：

根据所述第一输出值和所述第二输出值，生成第二损失值；

30.根据权利要求28所述的装置，其特征在于，所述训练模块，用于：

根据所述第三输出值和所述第四输出值，生成第三损失值；

31.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法，或者，执行权利要求7-15中任一项所述的方法。

32.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法，或者，执行根据权利要求7-15中任一项所述的方法。