CN113807430B

CN113807430B - 模型训练的方法、装置、计算机设备及存储介质

Info

Publication number: CN113807430B
Application number: CN202111082569.3A
Authority: CN
Inventors: 温琦; 袁燚; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-08-08
Anticipated expiration: 2041-09-15
Also published as: CN113807430A

Abstract

本申请实施例公开了一种模型训练的方法、装置、计算机设备及存储介质。可以利用同一文字形态且不同风格的至少两个文字作为样本文字，并且利用文字风格与一个指定文字的文字风格相同的文字作为样本文字，基于样本文字对具有形态编码器和风格编码器的待训练的生成网络进行训练，使得训练完成的生成网络可以通过一个或极少量的目标文字，将其他与目标文字的文字风格不同的源文字，准确地转换为与目标文字的文字风格相同的文字。

Description

模型训练的方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种模型训练的方法、装置、计算机设备及存储介质。

背景技术

汉字是古老而珍贵的文化遗产，自古以来，无数优秀的书法家留下了宝贵的书法作品，成为人类文明的辉煌成就。在悠久的历史中，许多珍贵的书法作品丢失了，不同的书法家都有自己的书写风格和笔触细节，对于书法初学者来说，模仿大师的杰作将会对于书法学习非常有帮助。因此可以利用神经网格的技术，对文字的风格转换进行建模，然而，现有的模型根据一个或极少量的参考文字，准确地生成多个与该参考文字风格一致但是形态不同的文字十分困难。

发明内容

本申请实施例提供一种文字生成方法、装置、计算机设备及存储介质，可以利用指定文字和随机文字组成的样本文字对生成网络进行训练，使得训练完成的生成网络可以通过一个或极少量的目标文字，将其他与目标文字的文字风格不同的源文字，准确地转换为与目标文字的文字风格相同的文字。

本申请实施例提供一种模型训练的方法，包括：

获取待训练的生成网络的样本文字，所述样本文字包括至少两个指定文字和至少一个随机文字，所述至少两个指定文字为同一文字形态的不同风格的字体，所述随机文字的文字风格与一个所述指定文字的文字风格相同；

基于所述待训练的生成网络的形态编码器，分别提取所述指定文字的文字形态，生成形态特征向量；

基于所述待训练的生成网络的风格编码器，分别提取所述指定文字和所述随机文字的文字风格，生成风格特征向量；

通过所述待训练的生成网络的解码器，基于所述形态特征向量和所述风格特征向量，生成至少一个预测文字；

基于所述预测文字、所述指定文字和所述随机文字，调整所述待训练的生成网络的参数，得到所述训练完成的生成网络。

相应的，本申请实施例还提供一种模型训练的装置，包括：

获取单元，用于获取待训练的生成网络的样本文字，所述样本文字包括至少两个指定文字和至少一个随机文字，所述至少两个指定文字为同一文字形态的不同风格的字体，所述随机文字的文字风格与一个所述指定文字的文字风格相同；

第一提取单元，用于基于所述待训练的生成网络的形态编码器，分别提取所述指定文字的文字形态，生成形态特征向量；

第二提取单元，用于基于所述待训练的生成网络的风格编码器，分别提取所述指定文字和所述随机文字的文字风格，生成风格特征向量；

生成单元，用于通过所述待训练的生成网络的解码器，基于所述形态特征向量和所述风格特征向量，生成至少一个预测文字；

调整单元，用于基于所述预测文字、所述指定文字和所述随机文字，调整所述待训练的生成网络的参数，得到所述训练完成的生成网络。

可选的，所述获取单元还用于：

从预设的第一数据集中获取第一文字和第三文字，所述预设的第一数据集中包含具有第一风格的多个文字；

从预设的第二数据集中获取第二文字和第四文字，所述预设的第二数据集中包含具有多种风格的多个文字，其中，所述第二文字和所述第四文字具有第二风格，且所述第二文字与所述第一文字具有相同的文字形态；

将所述第一文字和所述第二文字确定为所述指定文字，将所述第三文字和所述第四文字确定为所述随机文字，基于所述指定文字和所述随机文字获取所述待训练的生成网络的样本文字。

可选的，所述生成单元还用于：

通过所述待训练的生成网络的解码器，基于所述第一文字的形态特征向量和风格特征向量，或者基于所述第一文字的风格特征向量和所述第二文字的形态特征向量，或者基于所述第二文字的形态特征向量和所述第三文字的风格特征向量，或者基于所述第一文字的形态特征向量和所述第三文字的风格特征向量，生成所述第一文字对应的第一预测文字；

通过所述待训练的生成网络的解码器，基于所述第二文字的形态特征向量和风格特征向量，或者基于所述第一文字的形态特征向量和所述第二文字的风格特征向量，或者基于所述第二文字的形态特征向量和所述第四文字的风格特征向量，或者基于所述第一文字的形态特征向量和所述第四文字的风格特征向量，生成所述第二文字对应的第二预测文字；

将所述第一预测文字和/或所述第二预测文字作为所述预测文字。

可选的，所述调整单元还用于：

基于所述预测文字、所述指定文字和所述随机文字生成对抗损失和/或对齐损失；和/或，

基于所述形态特征向量和所述风格特征向量，生成一致损失；

基于所述对抗损失、和/或所述对齐损失，和/或所述一致损失，调整所述待训练的生成网络的参数，得到所述训练完成的生成网络。

可选的，所述文字形态包括形态组成结构，所述获取单元还用于：

确定所述第一文字的形态组成结构，作为第一形态组成结构，在所述第一数据集中除所述第一文字外的其他文字中确定一具有所述第一形态组成结构的文字作为所述第三文字；

确定所述第二文字的形态组成结构，作为第二形态组成结构，在所述第二数据集中除所述第二文字外的其他文字中确定具有所述第二形态组成结构的文字作为所述第四文字。

可选的，所述装置还用于：

获取具有目标风格的目标文字，以及待进行风格转换的源文字；

通过所述训练完成的生成网络中的风格编码器对所述目标文字的所述目标风格进行分析，得到所述目标文字的风格特征向量；

通过所述训练完成的生成网络中的形态编码器对所述源文字的文字形态进行分析，得到所述源文字的形态特征向量；

通过所述训练完成的生成网络中的解码器，基于所述目标文字的目标风格特征向量和所述源文字的形态特征向量进行文字生成，得到所述源文字的文字风格转换后的预测文字。

可选的，所述目标文字为第一字库中的文字，所述源文字为第二字库中的文字，同一字库中的文字具有相同的文字风格，所述装置还用于：

将所述转换后的预测文字添加到所述第一字库中；

返回在所述第二字库中获取未进行风格转换的文字，作为所述源文字，直至所述第二字库中的文字都转换为对应的预测文字。

可选的，所述文字的文字形态包括形态组成结构，所述装置还用于：

获取具有所述目标风格的目标文字，获取所述目标文字的形态组成结构，作为目标形态组成结构；

在待进行风格转换的文字中获取具有所述目标形态组成结构的文字，作为所述源文字。

同样的，本申请实施例还提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述模型训练的方法任一项的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现模型训练的方法任一项的步骤。

本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质，利用同一文字形态且不同风格的至少两个文字作为样本文字，并且利用文字风格与一个指定文字的文字风格相同的文字作为样本文字，基于样本文字对具有形态编码器和风格编码器的待训练的生成网络进行训练，使得训练完成的生成网络可以通过一个或极少量的目标文字，将其他与目标文字的文字风格不同的源文字，准确地转换为与目标文字的文字风格相同的文字。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的模型训练的装置的系统示意图；

图2是本申请实施例提供的模型训练的方法的流程示意图；

图3是本申请实施例提供的待训练的生成网络的训练过程示意图；

图4是本申请实施例提供的样本文字生成预测文字的过程示意图；

图5是本申请实施例提供的模型训练的装置的结构示意图；

图6是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种模型训练的方法、装置、计算机设备及存储介质。具体地，本申请实施例的模型训练的方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)等终端设备，终端还可以包括客户端，该客户端可以是游戏应用客户端、携带有游戏程序的浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络服务、以及大数据和人工智能平台等基础云计算服务的云服务器。

请参阅图1，图1为本申请实施例提供的模型训练的装置的系统示意图。该系统可以包括至少一个服务器，服务器用于获取待训练的生成网络的样本文字，样本文字包括至少两个指定文字和至少一个随机文字，至少两个指定文字为同一文字形态的不同风格的字体，随机文字的文字风格与一个指定文字的文字风格相同；基于待训练的生成网络的形态编码器，分别提取指定文字的文字形态，生成形态特征向量；基于待训练的生成网络的风格编码器，分别提取指定文字和随机文字的文字风格，生成风格特征向量；通过待训练的生成网络的解码器，基于形态特征向量和风格特征向量，生成至少一个预测文字；基于预测文字、指定文字和随机文字，调整待训练的生成网络的参数，得到训练完成的生成网络。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从模型训练的装置的角度进行描述，该模型训练的装置具体可以集成在终端设备中，该终端设备可以包括智能手机、笔记本电脑、平板电脑以及个人计算机等设备。

本申请实施例提供的一种模型训练的方法，该方法可以由终端的处理器执行，如图2所示，该模型训练的方法的具体流程主要包括步骤201至步骤205，详细说明如下：

步骤201、获取待训练的生成网络的样本文字，样本文字包括至少两个指定文字和至少一个随机文字，至少两个指定文字为同一文字形态的不同风格的字体，随机文字的文字风格与一个指定文字的文字风格相同。

在本申请实施例中，文字指的是记录表达信息的工具，文字可以包括汉字、外国文字(例如，英语、法语等)、艺术字、符号等等。文字可以具有文字风格和文字形态，文字风格可以是文字的表现形式，例如宋体、楷体、草书等。文字形态可以是具体的表现内容和表示意义，例如若文字为汉字，文字形态可以是该汉字具体表现的是哪一个字。

在本申请实施例中，每一个文字j都可以由文字形态c和文字风格s两部分组成，可以二元组来标识文字。即文字y＝{y_i,j},i＝1,2,…,M,j＝1,2,…,N。其中，i代表不同的文字形态，M是文字形态的总个数，j代表不同的文字风格，N是文字风格的总个数。

在本申请实施例中，得到训练完成的生成网络之前，可以根据样本文字序列对待训练的生成网络进行训练，使得生成网络能够根据目标文字的目标风格和源文字的文字形态，得到具有目标风格的源文字转换后的预测文字。具体地，可以利用至少四个文字组成样本文字序列，将至少四个文字组成的样本文字输入待训练的生成网络。

在本申请实施例中，由于很多文字风格的文字的数量较少，因此进行生成网络训练的文字数据量较少，为了能够根据较少的数据量使得训练得到的生成网络学习能力较强，可以利用至少两个指定文字和至少一个随机文字组成的样本文字对待训练的生成网络进行训练，具体地，上述步骤“获取待训练的生成网络的样本文字”可以包括：

从预设的第一数据集中获取第一文字和第三文字，预设的第一数据集中包含具有第一风格的多个文字；

从预设的第二数据集中获取第二文字和第四文字，预设的第二数据集中包含具有多种风格的多个文字，其中，第二文字和第四文字具有第二风格，且第二文字与第一文字具有相同的文字形态；

将第一文字和第二文字确定为指定文字，将第三文字和第四文字确定为随机文字，基于指定文字和随机文字获取待训练的生成网络的样本文字。

例如，第一数据集可以是常见文字风格的字库，例如宋体字库，当第一数据集为宋体字库时，第一数据集包括了宋体的所有文字，在宋体字库中获取宋体的两个文字，分别作为第一文字和第三文字。第二数据集可以是多种稀有风格文字组成的字库，例如第二数据集可以包括瘦金体文字、某些书法家现存的少量特定风格的文字等，在第二数据集中获取具有相同文字风格的两个文字分别作为第二文字和第四文字。由于可以通过待训练的生成网络生成第一文字对应的第一预测文字和第二文字对应的第二预测文字，因此可以将第一文字和第二文字作为指定文字，第三文字和第四文字作为随机文字。

例如，可以获取宋体的文字A为第一文字x_p，宋体的文字C为第三文字x_r，可以获取瘦金体的文字A为第二文字y_p，瘦金体的文字B为第四文字y_r，文字y_p、文字x_p、文字y_r和文字x_r形成样本文字序列。

在本申请实施例中，文字的文字形态包括形态组成结构，例如，文字为汉字，汉字的形态组成结构可以包括左右组成结构(得、到等汉字)、上下组成结构(露、雪等汉字)、或整体组成结构(成、乘等汉字)。为了使得训练完成的生成网络生成的预测文字更加准确，可以使得从相同数据集中获取的文字具有相同的形态组成结构，具体地，上述步骤“从预设的第一数据集中获取第三文字”可以是：确定第一文字的形态组成结构，作为第一形态组成结构，在第一数据集中除第一文字外的其他文字中确定一具有第一形态组成结构的文字作为第三文字；同样地上述步骤“从预设的第二数据集中获取第四文字”可以是：确定第二文字的形态组成结构，作为第二形态组成结构，在第二数据集中除第二文字外的其他文字中确定具有第二形态组成结构的文字作为第四文字。

例如，第一文字和第三文字可以都是左右结构的文字，第二文字和第四文字可以都是上下结构的文字。此外，第一文字和第三文字的形态组成结构也可以等同于第二文字和第四文字。从而可以使得待训练的生成网络的预测速度更快，并且预测地更加准确，进一步得出学习力较强的生成网络。

在本申请实施例中，还可以预先确定经过生成网络学习后生成的目标预测文字，然后为了准确生成目标预测文字，可以根据目标预测文字获取其他样本文字，具体地，上述步骤“获取待训练的生成网络的样本文字”还可以是：

确定目标预测文字，获取目标预测文字的预测文字风格和预测文字形态；

获取具有预测文字形态的第一参照文字，将目标预测文字和第一参照文字作为指定文字；

获取具有预测文字风格的第二参照文字，以及具有第一参照文字的参照文字风格的第三参照文字，将第二参照文字和第三参照文字作为随机文字；

基于指定文字和随机文字，形成待训练的生成网络的样本文字序列。

其中，目标预测文字可以是经过生成网络后最终学习生成的文字，即预测文字是经过生成网络学习后的目标预测文字。例如，可以获取目标预测文字为瘦金体的文字y_p，目标预测文字的预测文字风格为瘦金体，预测文字形态为文字A，获取宋体的文字A为第一参照文字x_p，获取瘦金体的文字B为第二参照文字y_r，获取宋体的文字C为第三参照文字x_r，文字y_p、文字x_p、文字y_r和文字x_r形成样本文字序列。

步骤202、基于待训练的生成网络的形态编码器，分别提取指定文字的文字形态，生成形态特征向量。

其中，形态编码器为生成网络中编码器的其中一种，形态编码器用于对文字的文字形态进行分析，得到形态特征向量。例如，一张224*224*3的字体图片输入形态编码器后，经过形态编码器不断的下采样进行分析，逐渐得到一个1*512维的目标形态特征向量。

在本申请实施例中，可以通过待训练的生成网络的形态编码器对第一文字的文字形态进行分析，得到第一文字的形态特征向量，还可以通过待训练的生成网络的形态编码器对第二文字的文字形态进行分析，得到第二文字的形态特征向量。

步骤203、基于待训练的生成网络的风格编码器，分别提取指定文字和随机文字的文字风格，生成风格特征向量。

其中，生成网络可以获取训练样本并训练一个模型，该模型能按照我们定义的目标数据分布去生成数据。风格编码器为生成网络中编码器的其中一种，风格编码器用于对文字的文字风格进行分析，得到风格特征向量。例如，一张224*224*3的字体图片输入风格编码器后，经过风格编码器不断的下采样进行分析，逐渐得到一个1*512维的目标风格特征向量。

在本申请实施例中，可以通过待训练的生成网络的风格编码器对第一文字的文字风格进行分析，形成第一文字的风格特征向量，通过待训练的生成网络的风格编码器对第二字的文字风格进行分析，形成第二文字的风格特征向量，通过待训练的生成网络的风格编码器对第三文字的文字风格进行分析，形成第三文字的风格特征向量，通过待训练的生成网络的风格编码器对第四文字的文字风格进行分析，形成第四文字的风格特征向量。

例如，如图3和图4所示，将文字yp、文字xp、文字yr和文字xr形成的样本文字序列输入到生成网络中，基于待训练的生成网络的形态编码器提取文字yp的形态特征向量Cyp，基于待训练的生成网络的形态编码器提取文字xp的形态特征向量Cxp，基于待训练的生成网络的风格编码器提取文字yp的风格特征向量Syp，基于待训练的生成网络的风格编码器提取文字xp的风格特征向量Sxp，基于待训练的生成网络的风格编码器提取文字xr的风格特征向量Sxr，基于待训练的生成网络的风格编码器提取文字yr的风格特征向量Syr，将形态特征向量Cyp和形态特征向量Cxp作为形态特征向量Ci，将风格特征向量Syp、风格特征向量Sxp、风格特征向量Sxr和风格特征向量Syr作为风格特征向量Sj，将形态特征向量Ci和风格特征向量Sj输入生成网络的解码器，得到预测文字G(Ec(yp),Es(xr))或预测文字G(Ec(xp),Es(yr))。

步骤204、通过待训练的生成网络的解码器，基于形态特征向量和风格特征向量，生成至少一个预测文字。

在本申请实施例中，当获取了指定文字的风格特征向量和形态特征向量，以及随机文字的风格特征向量之后，上述步骤“通过待训练的生成网络的解码器，基于形态特征向量和风格特征向量，生成至少一个预测文字”可以是：

通过待训练的生成网络的解码器，基于第一文字的形态特征向量和风格特征向量，或者基于第一文字的风格特征向量和第二文字的形态特征向量，或者基于第二文字的形态特征向量和第三文字的风格特征向量，或者基于第一文字的形态特征向量和第三文字的风格特征向量，生成第一文字对应的第一预测文字；

通过待训练的生成网络的解码器，基于第二文字的形态特征向量和风格特征向量，或者基于第一文字的形态特征向量和第二文字的风格特征向量，或者基于第二文字的形态特征向量和第四文字的风格特征向量，或者基于第一文字的形态特征向量和第四文字的风格特征向量，生成第二文字对应的第二预测文字；

将第一预测文字和/或第二预测文字作为预测文字。

在本申请实施例中，还可以同时基于第一文字的形态特征向量和风格特征向量、第二文字的形态特征向量以及第三文字的风格特征向量，生成第一文字对应的第一预测文字。

同样地，还可以同时基于第一文字的形态特征向量、第二文字的形态特征向量和风格特征向量，以及第四文字的风格特征向量，生成第二文字对应的第二预测文字。

例如，如图4所示，获取宋体的文字A为第一文字x_p，宋体的文字C为第三文字x_r，获取瘦金体的文字A为第二文字y_p，瘦金体的文字B为第四文字y_r，当获取了文字x_p的形态特征向量Cx_p、文字x_p的风格特征向量Sx_p、文字y_p的形态特征向量Cy_p、文字y_p的风格特征向量Sy_p、文字x_r的风格特征向量Sx_r和文字y_r的风格特征向量Sy_r后，可以根据文字x_p的形态特征向量Cx_p、文字x_p的风格特征向量Sx_p、文字y_p的形态特征向量Cy_p和文字x_r的风格特征向量Sx_r得到第二预测文字G(E_c(y_p),Es(x_r))，可以根据文字x_p的形态特征向量Cx_p、文字y_p的形态特征向量Cy_p、文字y_p的风格特征向量Sy_p和文字y_r的风格特征向量Sy_r得到第一预测文字G(E_c(x_p)，Es(y_r))，此时，第一预测文字为经过生成网络学习后的瘦金体的文字A，第二预测文字为经过生成网络学习后的宋体的文字A。

步骤205、基于预测文字、指定文字和随机文字，调整待训练的生成网络的参数，得到训练完成的生成网络。

在本申请实施例中，可以基于损失函数调整生成网络的参数，不断减小损失函数的损失，迭代优化生成网络的参数，从而使得生成网络的学习性能越来越好。上述步骤中“基于预测文字、指定文字和随机文字，调整待训练的生成网络的参数，得到训练完成的生成网络”可以是：

基于预测文字、指定文字和随机文字生成对抗损失和/或对齐损失；和/或

基于形态特征向量和风格特征向量，生成一致损失；

基于对抗损失、和/或对齐损失，和/或一致损失，调整待训练的生成网络的参数，得到训练完成的生成网络。

例如，获取宋体的文字A为第一文字xp，宋体的文字C为第三文字xr，获取瘦金体的文字A为第二文字yp，瘦金体的文字B为第四文字yr，即样本文字序列可以表示为I_i，j＝{x_p，y_p，x_r，y_r}＝{x_i，0，y_i，j，x_q，0，y_k，j}，i＝1，2，...，M，j＝1，2，...，N。其中q、k为随机数字，且M＞q，k＞0。

在本申请实施例中，在成对维度和随机维度下分别计算三个损失函数，对抗损失为：成对维度(使用的训练数据为指定文字)：

在随机维度(训练数据是随机文字的y_r)：

总体对抗损失如下：

对齐损失为：成对维度：

随机维度：

总体的对齐损失表示为：

一致损失：对于不同风格的同一个字，它们的形态特征需要一致。使用L2损失来约束形态特征的一致性：

同样的，对于同一个风格的不同字，其风格特征必须一致。但是不同于形态特征，风格特征不能简单地使用L1损失或者L2损失来约束，因此我们使用MK-MMD(多核最大均值距离)来匹配风格特征的分布。因此风格一致损失为：

其中φ为相应的特征图。值得注意的是，当yp＝yr时，

因此，总的一致损失表示为：

综上，全部损失函数可以表示为：

L＝λ₁L_GAN+λ₂L_alignment+λ₃L_consistency

在本申请实施例中，当获取了训练完成的生成网路之后，可以将训练完成的生成网络应用于文字风格的转换场景，即在上述步骤205“基于预测文字、指定文字和随机文字，调整待训练的生成网络的参数，得到训练完成的生成网络”之后，还可以包括：

通过训练完成的生成网络中的风格编码器对目标文字的目标风格进行分析，得到目标文字的风格特征向量；

通过训练完成的生成网络中的形态编码器对源文字的文字形态进行分析，得到源文字的形态特征向量；

通过训练完成的生成网络中的解码器，基于目标文字的目标风格特征向量和源文字的形态特征向量进行文字生成，得到源文字的文字风格转换后的预测文字。

在本申请实施例中，为了根据一个或极少量的目标文字，生成多个具的有目标风格，且具有多种文字形态的文字，可以利用多个具有不同文字形态的源文字来生成。因此，需要获取多个具有不同文字形态的源文字，基于目标文字将源文字转换为具有目标风格的文字。

在本申请实施例中，目标文字的目标风格，和源文字的文字风格不相同。例如，目标文字的目标风格可以是瘦金体，源文字的文字风格可以是宋体。

在本申请的一种实施方式中，若目标文字为第一字库中的文字，源文字为第二字库中的文字，即第一字库中的文字具有目标风格，第二字库中的文字具有第二文字风格，同一个字库中的文字具有相同的文字风格，则可以根据第二字库中的所有文字的文字形态，在第一字库中生成具有对应文字形态的转换后源文字，即转换后的预测文字。此外，若第二字库中具有全部文字形态的文字，而第一字库中具有一个或少量文字形态的文字，则可以在第一字库中生成具有全部文字形态的文字，从而实现根据一个字库生成另一个完整的字库。具体地，上述步骤“基于目标文字的目标风格特征向量和源文字的形态特征向量进行文字生成，得到源文字的文字风格转换后的预测文字”之后，还可以包括：将转换后的预测文字添加到第一字库中；返回在第二字库中获取未进行风格转换的文字，作为源文字，直至第二字库中的文字都转换为对应的预测文字。

例如，若第一字库的目标风格为瘦金体，第二字库的第二文字风格为宋体，瘦金体风格的文字比较稀少，而宋体字库中具有完整文字形态的文字，可以根据宋体字库中的全部文字的文字形态，生成具有完整文字形态的瘦金体字库。

在本申请实施例中，文字的文字形态包括形态组成结构，例如，文字为汉字，汉字的形态组成结构可以包括左右组成结构(得、到等汉字)、上下组成结构(雷、雪等汉字)、或整体组成结构(成、乘等汉字)。为了使得根据目标文字的目标风格和源文字的文字形态，生成的源文字的文字风格转换后的预测文字更准确快速，可以选择具有相同或相近形态组成结构的目标文字和源文字。具体地，上述步骤“获取具有目标风格的目标文字，以及待进行风格转换的源文字”包括：获取具有目标风格的目标文字，获取目标文字的形态组成结构，作为目标形态组成结构；在待进行风格转换的文字中获取具有目标形态组成结构的文字作为源文字。

例如，目标文字为雷，目标文字的目标形态组成结构为上下结构，则可以获取同样具有上下结构的文字“雪”作为源文字。

在本申请实施例中，源文字可以是从文本中提取出来的一个或一段文字，若源文字是一个段落，此时将该段落转换为具有目标风格的段落。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例提供的文字生成方法，利用同一文字形态且不同风格的至少两个文字作为样本文字，并且利用文字风格与一个指定文字的文字风格相同的文字作为样本文字，基于样本文字对具有形态编码器和风格编码器的待训练的生成网络进行训练，使得训练完成的生成网络可以通过一个或极少量的目标文字，将其他与目标文字的文字风格不同的源文字，准确地转换为与目标文字的文字风格相同的文字。

为便于更好的实施本申请实施例的模型训练的方法，本申请实施例还提供一种模型训练的装置。请参阅图5，图5为本申请实施例提供的模型训练的装置的结构示意图。该模型训练的装置可以包括获取单元501、第一提取单元502、第二提取单元503、生成单元504和调整单元505。

其中，获取单元501，用于获取待训练的生成网络的样本文字，样本文字包括至少两个指定文字和至少一个随机文字，至少两个指定文字为同一文字形态的不同风格的字体，随机文字的文字风格与一个指定文字的文字风格相同；

第一提取单元502，用于基于待训练的生成网络的形态编码器，分别提取指定文字的文字形态，生成形态特征向量；

第二提取单元503，用于基于待训练的生成网络的风格编码器，分别提取指定文字和随机文字的文字风格，生成风格特征向量；

生成单元504，用于通过待训练的生成网络的解码器，基于形态特征向量和风格特征向量，生成至少一个预测文字；

调整单元505，用于基于预测文字、指定文字和随机文字，调整待训练的生成网络的参数，得到训练完成的生成网络。

可选的，获取单元501还用于：

可选的，生成单元504还用于：

将第一预测文字和/或第二预测文字作为预测文字。

可选的，调整单元505还用于：

基于形态特征向量和风格特征向量，生成一致损失；

可选的，文字形态包括形态组成结构，获取单元501还用于：

确定第一文字的形态组成结构，作为第一形态组成结构，在第一数据集中除第一文字外的其他文字中确定一具有第一形态组成结构的文字作为第三文字；

确定第二文字的形态组成结构，作为第二形态组成结构，在第二数据集中除第二文字外的其他文字中确定具有第二形态组成结构的文字作为第四文字。

可选的，装置还用于：

可选的，目标文字为第一字库中的文字，源文字为第二字库中的文字，同一字库中的文字具有相同的文字风格，装置还用于：

将转换后的预测文字添加到第一字库中；

返回在第二字库中获取未进行风格转换的文字，作为源文字，直至第二字库中的文字都转换为对应的预测文字。

可选的，文字的文字形态包括形态组成结构，装置还用于：

获取具有目标风格的目标文字，获取目标文字的形态组成结构，作为目标形态组成结构；

在待进行风格转换的文字中获取具有目标形态组成结构的文字，作为源文字。

本申请实施例提供的模型训练的装置，可以利用同一文字形态且不同风格的至少两个文字作为样本文字，并且利用文字风格与一个指定文字的文字风格相同的文字作为样本文字，基于样本文字对具有形态编码器和风格编码器的待训练的生成网络进行训练，使得训练完成的生成网络可以通过一个或极少量的目标文字，将其他与目标文字的文字风格不同的源文字，准确地转换为与目标文字的文字风格相同的文字。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机、个人数字助理等终端设备。如图6所示，图6为本申请实施例提供的计算机设备的结构示意图。该计算机设备600包括有一个或者一个以上处理核心的处理器601、有一个或一个以上计算机可读存储介质的存储器602及存储在存储器602上并可在处理器上运行的计算机程序。其中，处理器601与存储器602电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器601是计算机设备600的控制中心，利用各种接口和线路连接整个计算机设备600的各个部分，通过运行或加载存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行计算机设备600的各种功能和处理数据，从而对计算机设备600进行整体监控。

在本申请实施例中，计算机设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能：

获取待训练的生成网络的样本文字，样本文字包括至少两个指定文字和至少一个随机文字，至少两个指定文字为同一文字形态的不同风格的字体，随机文字的文字风格与一个指定文字的文字风格相同；基于待训练的生成网络的形态编码器，分别提取指定文字的文字形态，生成形态特征向量；基于待训练的生成网络的风格编码器，分别提取指定文字和随机文字的文字风格，生成风格特征向量；通过待训练的生成网络的解码器，基于形态特征向量和风格特征向量，生成至少一个预测文字；基于预测文字、指定文字和随机文字，调整待训练的生成网络的参数，得到训练完成的生成网络。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图6所示，计算机设备600还包括：触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607。其中，处理器601分别与触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607电性连接。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏603可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏603可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器601，并能接收处理器601发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器601以确定触摸事件的类型，随后处理器601根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏603而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏603也可以作为输入单元606的一部分实现输入功能。

射频电路604可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路605可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路605可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路605接收后转换为音频数据，再将音频数据输出处理器601处理后，经射频电路604以发送给比如另一计算机设备，或者将音频数据输出至存储器602以便进一步处理。音频电路605还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元606可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源607用于给计算机设备600的各个部件供电。可选的，电源607可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源607还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图6中未示出，计算机设备600还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，可以利用同一文字形态且不同风格的至少两个文字作为样本文字，并且利用文字风格与一个指定文字的文字风格相同的文字作为样本文字，基于样本文字对具有形态编码器和风格编码器的待训练的生成网络进行训练，使得训练完成的生成网络可以通过一个或极少量的目标文字，将其他与目标文字的文字风格不同的源文字，准确地转换为与目标文字的文字风格相同的文字。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种文字生成方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(Read Only Memory，ROM)、随机存取记忆体(Random Access Memory，RAM)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种模型训练的方法中的步骤，因此，可以实现本申请实施例所提供的任一种模型训练的方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种模型训练的方法、装置、计算机设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

将所述第一文字和所述第二文字确定为指定文字，将所述第三文字和所述第四文字确定为随机文字，基于所述指定文字和所述随机文字获取待训练的生成网络的样本文字；

2.根据权利要求1所述的方法，其特征在于，所述通过所述待训练的生成网络的解码器，基于所述形态特征向量和所述风格特征向量，生成至少一个预测文字，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述预测文字、所述指定文字和所述随机文字，调整所述待训练的生成网络的参数，得到所述训练完成的生成网络，包括：

基于所述预测文字、所述指定文字和所述随机文字生成对抗损失和/或对齐损失；和/或

4.根据权利要求1所述的方法，其特征在于，所述文字形态包括形态组成结构，所述从预设的第一数据集中获取第三文字，包括：

所述从预设的第二数据集中获取第四文字，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述预测文字、所述指定文字和所述随机文字，调整所述待训练的生成网络的参数，得到所述训练完成的生成网络之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述目标文字为第一字库中的文字，所述源文字为第二字库中的文字，同一字库中的文字具有相同的文字风格，所述基于所述目标文字的目标风格特征向量和所述源文字的形态特征向量进行文字生成，得到所述源文字的文字风格转换后的预测文字之后，还包括：

将所述转换后的预测文字添加到所述第一字库中；

7.根据权利要求5所述的方法，其特征在于，所述文字的文字形态包括形态组成结构，所述获取具有目标风格的目标文字，以及待进行风格转换的源文字，包括：

8.一种模型训练的装置，其特征在于，包括：

获取单元，用于从预设的第一数据集中获取第一文字和第三文字，所述预设的第一数据集中包含具有第一风格的多个文字，从预设的第二数据集中获取第二文字和第四文字，所述预设的第二数据集中包含具有多种风格的多个文字，其中，所述第二文字和所述第四文字具有第二风格，且所述第二文字与所述第一文字具有相同的文字形态，将所述第一文字和所述第二文字确定为指定文字，将所述第三文字和所述第四文字确定为随机文字，基于所述指定文字和所述随机文字获取待训练的生成网络的样本文字；

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序时实现如权利要求1至7任一项所述模型训练的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述模型训练的方法中的步骤。