CN111553246B

CN111553246B - 基于多任务对抗学习网络的汉字风格迁移方法及系统

Info

Publication number: CN111553246B
Application number: CN202010333081.2A
Authority: CN
Inventors: 武蕾; 孟雷; 孟祥旭; 陈曦
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-04-15
Filing date: 2020-04-24
Publication date: 2022-04-01
Anticipated expiration: 2040-04-24
Also published as: CN111553246A

Abstract

本公开公开了基于多任务对抗学习网络的汉字风格迁移方法及系统，包括：获取待风格迁移的汉字图像；将待风格迁移的汉字图像，输入到训练后的多任务对抗学习网络中；训练后的多任务对抗学习网络，输出风格迁移后的多种字体图像。本公开使用一个统一的编码器来学习对所有目标字体都很重要的参考字体的通用视觉模式，以最大限度地跨任务传播特征级信息，并将特定于任务的特征保留到各自的网络通道中，这种多任务训练策略使得汉字风格迁移网络训练更加稳定，提高了网络的泛化能力，同时生成的字体风格更加和目标字体一致，笔画边界清晰。

Description

基于多任务对抗学习网络的汉字风格迁移方法及系统

技术领域

本公开涉及机器学习、计算机视觉技术领域，特别是涉及基于多任务对抗学习网络的汉字风格迁移方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

书法是中国传统艺术之一。中国的汉字字体经过几千年的演变，经历了甲骨文、篆书、隶书、楷书、行书、草书等发展，形成了中国书法艺术千姿百态的风貌。随着中国的发展以及中国在世界范围内影响力的提高，越来越多的人逐渐认识汉字，汉字已成为世界上使用人口最多的文字。虽然字体产品的数量在过去二十年中迅速增长，但现有的资源仍然不能满足越来越多的实际需求。随着越来越多元化的精神文化需求，人们更加希望能够建立具有自己手写体风格的个人字库。

与英文等表音的字体相比，博大精深的汉字具有字义丰富和形体复杂等特点。汉字数量大，国标GB2312共收录6763个汉字，其中一级汉字3755个，二级汉字3008个，大字库包含了大约7万字左右。发明人发现，目前中文字库制作方法一般先由书法家书写或字体设计师制作几百到几千个基准字，包含目标字库所有汉字出现的全部笔画和部件，然后，字体制作人员将基准字的笔画和部件进行加工修改，来生成完整的字库。传统字库生产方式十分繁琐，需要大量的手写汉字，耗费大规模人工进行设计编辑，因此亟需开展汉字字形生成技术，提高个性化字库的生成效率和品质。根据少量字体来学习到字体的风格，然后根据风格生成字库中余下的汉字，能有效的提升汉字字体设计生成能力，并可以降低个人字库的建设门槛。

发明内容

为了解决现有技术的不足，本公开提供了基于多任务对抗学习网络的汉字风格迁移方法及系统；本公开可以基于不同风格字体的少量汉字学习到多种字体的风格，实现一对多汉字风格迁移，同时生成多个目标风格字库中余下的汉字，能有效的提升汉字字体设计生成能力，降低个人字库的建设门槛，并可以应用于书法历史古迹的修复。

第一方面，本公开提供了基于多任务对抗学习网络的汉字风格迁移方法；

基于多任务对抗学习网络的汉字风格迁移方法，包括：

获取待风格迁移的汉字图像；

将待风格迁移的汉字图像，输入到训练后的多任务对抗学习网络中；

训练后的多任务对抗学习网络，输出风格迁移后的多种字体图像。

第二方面，本公开提供了基于多任务对抗学习网络的汉字风格迁移系统；

基于多任务对抗学习网络的汉字风格迁移系统，包括：

获取模块，其被配置为：获取待风格迁移的汉字图像；

风格迁移模块，其被配置为：将待风格迁移的汉字图像，输入到训练后的多任务对抗学习网络中；

输出模块，其被配置为：训练后的多任务对抗学习网络，输出风格迁移后的多种字体图像。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本公开的有益效果是：

1.多任务对抗学习网络通过学习从一个参考字体到几个目标字体的一对多风格映射使图像编码器可以专注于有益于所有任务的字体特性，使生成的字体风格更加和目标字体一致，笔画边界清晰。

2.编码器之间的信息共享策略，可以最大限度地跨任务传播积极的特征级信息，并将特定于任务的特征保留到各自的网络通道中，这使得模型的训练更加稳定。

3.多任务对抗学习网络可以完成源字体到多个目标字体的转化，减少了模型的训练次数，提高了风格字体生成效率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例一提供的基于多任务对抗网络的汉字风格迁移方法的流程图；

图2是本公开实施例一提供的基于多任务对抗网络的汉字风格迁移方法的网络结构图；

图3是本公开实施例一提供的基于多任务对抗网络的汉字风格迁移方法的单个任务的生成器网络结构图；

图4是本公开实施例一提供的单任务模型和多任务模型生成结果比较；

图5是本公开实施例二提供的基于多任务对抗学习网络的汉字风格迁移系统功能模块示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一，本实施例提供了基于多任务对抗学习网络的汉字风格迁移方法；

如图1所示，基于多任务对抗学习网络的汉字风格迁移方法，包括：

S100：获取待风格迁移的汉字图像；

S200：将待风格迁移的汉字图像，输入到训练后的多任务对抗学习网络中；

S300：训练后的多任务对抗学习网络，输出风格迁移后的多种字体图像。

作为一个或多个实施例，所述获取待风格迁移的汉字图像步骤之后，所述将待风格迁移的汉字图像，输入到训练后的多任务对抗学习网络中步骤之前，还包括：对待风格迁移的汉字图像进行预处理。

进一步地，所述对待风格迁移的汉字图像进行预处理，具体包括：将待风格迁移的汉字图像由.ttf文件转化为256*256的.jpg图片。

作为一个或多个实施例，如图2所示，所述多任务对抗学习网络，包括：

若干个并列的单通道对抗学习网络；

每个单通道对抗学习网络均包括生成器和判别器；

每个生成器，均包括依次连接的编码器和解码器；

每个编码器，均包括依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层；所述编码器通过下采样将输入的汉字图像变成高层抽象表示；

每个解码器，均包括依次连接的第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层、第六反卷积层和第七反卷积层；所述解码器通过逐级上采样，恢复出特征图像；

所述编码器中的每一个卷积层均与对应解码器的一个反卷积层进行连接；

每一个单通道对抗学习网络的每一层卷积层均与其他任意一个单通道对抗学习网络对应层数的卷积层连接。

进一步地，所述编码器中的每一个卷积层均与对应解码器的一个反卷积层进行连接，工作原理是：

解码器上采样结合编码器下采样各层信息和解码器上采样的输入信息来还原图像细节信息，并且逐步还原图像精度，保证最后恢复出来的特征图融合了若干个的low-level的特征feature，也使得不同尺度的特征feature得到融合。

进一步地，所述每一个单通道对抗学习网络的每一层卷积层均与其他任意一个单通道对抗学习网络对应层数的卷积层连接，具体是指：

每个单通道网络的编码器每一层与其他任意一个单通道网络的编码器对应的层之间通过L2损失连接。

应理解的，所述编码器中的每一个卷积层均与对应解码器的一个反卷积层进行连接；具体使用UNET的结构进行连接。

例如，所述编码器中的每一个卷积层均与对应解码器的一个反卷积层进行连接；包括：第一卷积层与第七反卷积层连接，第二卷积层与第六反卷积层连接，第三卷积层与第五反卷积层连接，第四卷积层与第四反卷积层连接，第五卷积层与第三反卷积层连接，第六卷积层与第二反卷积层连接，第七卷积层与第一反卷积层连接；第八卷积层也与第一反卷积层连接。

应理解的，每一个单通道对抗学习网络编码器的每一层卷积层均与其它任意一个单通道对抗学习网络编码器的对应层数的卷积层连接，包括：

第一单通道对抗学习网络的第一卷积层与第二单通道对抗学习网络的第一卷积层连接；第一单通道对抗学习网络的第二卷积层与第二单通道对抗学习网络的第二卷积层连接；第一单通道对抗学习网络的第三卷积层与第二单通道对抗学习网络的第三卷积层连接；第一单通道对抗学习网络的第四卷积层与第二单通道对抗学习网络的第四卷积层连接；第一单通道对抗学习网络的第五卷积层与第二单通道对抗学习网络的第五卷积层连接；第一单通道对抗学习网络的第六卷积层与第二单通道对抗学习网络的第六卷积层连接；第一单通道对抗学习网络的第七卷积层与第二单通道对抗学习网络的第七卷积层连接；第一单通道对抗学习网络的第八卷积层与第二单通道对抗学习网络的第八卷积层连接。

进一步地，所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层的内部结构彼此相同；

所述第一卷积层，包括依次连接的卷积单元、归一化层和Relu函数层。

进一步地，所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层的功能是输入的汉字图像通过逐级下采样，变为高层抽象表示。

进一步地，所述第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层、第六反卷积层和第七反卷积层的内部结构彼此相同；

所述第一反卷积层，包括依次连接的反卷积单元、归一化单元、Relu函数层和连接层。

进一步地，所述第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层、第六反卷积层和第七反卷积层的功能是：将编码器输出的高层抽象表示通过解码器的逐级上采样，得到最终的汉字图像。

作为一个或多个实施例，所述多任务对抗学习网络，训练过程包括：

构建多任务训练集、验证集和测试集；构建多任务对抗学习网络；所述训练集为选取的源风格字体汉字图像和多种目标字体汉字图像；将训练集输入到多任务对抗学习网络中进行训练，再利用验证集对多任务对抗学习网络进行验证，利用测试集对多任务对抗学习网络进行测试，最后得到训练后的多任务对抗学习网络。

作为一个或多个实施例，如图3所示，所述单通道对抗学习网络，是指训练后的单通道对抗学习网络。

同样的，单通道对抗学习网络的训练过程包括：

构建单任务训练集、验证集和测试集；构建单通道对抗学习网络；所述训练集为选定的源字体汉字图像和某一种目标字体汉字图像；将训练集输入到单通道对抗学习网络中进行训练，再利用验证集对单任务对抗学习网络进行验证，利用测试集对单任务对抗学习网络进行测试，最后得到训练后的单任务对抗学习网络。

多任务对抗学习网络，生成器网络由n个子网络组成，n个子网络的编码器共享信息，n个判别器相互独立，分别判断n种生成字体图片的真假。其中n是目标字体的种类数。

先利用(源字体，第i种字体)其中i∈{1,2,...n}，分别对单通道网络进行训练，得到一组训练好的单通道模型。

加载训练好的n个单通道模型参数，对整体的多任务对抗学习网络进行训练，得到训练后的多任务字体风格迁移模型。对模型进行测试，验证模型的风格转换效果。

输入源字体中剩余的字符图片，输出n种风格的目标字体图片。

进一步地，构建多任务训练集、验证集和测试集的具体步骤包括：

S101：选择标准的黑体作为源字体；优选的，也可以选择宋体、等线体等笔法简洁，结构严谨的字体作为源字体；

S102：获得黑体TrueType字库文件，进行处理转换为256*256的.jpg图片；

S103：从源字体中随机选择500个字符图片

S104：选择n种其他字体作为目标字体集

对应的选取目标字体集中每种字体的500个字符图片，组成每种目标字体各自的数据集，

将数据集按比例划分为训练集、验证集和测试集；

S105：将数据集转化成.npy文件。

进一步地，构建单通道对抗学习网络，具体步骤包括：

S201：搭建生成器：生成器为autodecoder结构，由包含8层卷积层的编码器和包含7层反卷积层的解码器组成。编码器每一层为Convolution-InstanceNorm-LeakyRelu结构,每个卷积层的输出通道为64，128，256，512，512，512，512和512；解码器每一层为Deconvolution-InstanceNorm-Relu结构，每个反卷积层的输出通道为512，512，512，512，256，128，64.卷积核大小为4*4，步长为2。

S202：搭建判别器：判别器的结构采用了文献(P.Isola,J.Zhu,T.Zhou,A.A.Efros,Image-to-image translation with conditional adversarial networks,in:IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017,pp.5967–5976.)中的网络结构；

S203：将生成器和判别器进行连接。

作为一个或多个实施例，所述构建多任务对抗学习网络；具体步骤包括：

S301：构建一个生成器和n个相互独立的判别器；

所述生成器中包含n个相关联的编码器解码器encoder-decoder，每个编码器解码器的具体结构与单通道对抗学习网络相同，n个字体风格迁移单通道网络中生成器的编码器通过L2损失函数两两相互连接，具体公式见公式(1)，使各个编码器之间共享字体特征信息；

其中，n是任务总数，和是第p个和第q个任务，K是每个编码器中的总层数，G指生成器，

指生成器的L2损失。

S302：每个单通道对抗学习网络中编码器的第i层和对应解码器的第n-i层进行跳跃式链接；n个判别器各自独立。

进一步地，单通道对抗学习网络的训练过程包括：

S401：单通道对抗学习网络的损失函数包括对抗损失损失和像素空间损失，其中像素空间的损失通过计算生成汉字图像和目标汉字图像的L1损失来度量，具体公式见公式(2)，(3)所示。

其中，x_i ^rs代表输入的第i张源字体图片，x_i ^ts代表输入的第i张目标字体图片。

S402：单通道对抗学习网络总的目标函数公式(4)所示：

其中，λ₀和λ₁是两个损失占据的权重。

S403：输入数据为{x_i ^rs,x_i ^ts}，其中i∈{1,2,...m}，m是训练集中字符图片的总个数。

进一步地，所述多任务对抗学习网络，训练过程包括：

S501：多任务对抗学习网络的损失函数包括三部分：对抗损失，L1损失和各编码器之间L2损失(定义见公式(1))，

其中

和

表示第p个任务的

和

和

的具体定义见上方公式(2)和(3)；

多任务对抗学习网络的总目标函数为：

其中λ₀，λ₁和λ₂为权重，G^*指多任务对抗学习网络的总目标函数，

指多任务对抗学习网络总的GAN损失，

指多任务对抗学习网络总的L1损失，

指多任务对抗学习网络总的L2损失；

S502：加载训练好的n个单通道对抗学习网络的参数，然后开始训练多任务对抗学习网络；多任务对抗学习网络的输入数据为

其中i∈{1,2,...m}，m表示训练数据集中的字符总数，n表示任务总数；

S503：多任务对抗学习网络训练好后，将源字体中测试数据集输入生成器网络，生成相对应的目标字体中的字符，检测多任务对抗学习网络的有效性。

从以上技术方案可以看出，本公开提供的技术方案具有如下有益效果与优势：

1.多任务对抗生成网络通过学习从一个参考字体到几个目标字体的一对多风格映射使图像编码器可以专注于有益于所有任务的字体特性，使生成的字体风格更加和目标字体一致，笔画边界清晰，如图4所示。

3.多任务对抗生成网络可以完成源字体到多个目标字体的转化，减少了模型的训练次数，提高了风格字体生成效率。

4.基于不同风格字体的少量汉字学习到多种字体的风格，实现一对多汉字风格迁移，同时生成多个目标风格字库中余下的汉字，是一种端到端的生成方法，不需要对汉字进行笔画或部件提取，不需要人工干预，生成高质量的汉字字形，能有效的提升汉字字体设计生成能力，降低个人字库的建设门槛，并可以应用于书法历史古迹的修复。

实施例二，本实施例提供了基于多任务对抗学习网络的汉字风格迁移系统；

如图5所示，基于多任务对抗学习网络的汉字风格迁移系统，包括：

获取模块，其被配置为：获取待风格迁移的汉字图像；

此处需要说明的是，上述获取模块、风格迁移模块和输出模块对应于实施例一中的步骤S100至S300，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于多任务对抗学习网络的汉字风格迁移方法，其特征是，包括：

获取待风格迁移的汉字图像；

训练后的多任务对抗学习网络，输出风格迁移后的多种字体图像；

所述多任务对抗学习网络，包括：

若干个并列的单通道对抗学习网络；

每个单通道对抗学习网络均包括生成器和判别器；

每个生成器，均包括依次连接的编码器和解码器；

每个编码器，均包括依次连接的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层；所述编码器通过下采样将输入的汉字图像编程高层抽象表示；

每一个单通道对抗学习网络的每一层卷积层均与其他任意一个单通道对抗学习网络对应层数的卷积层连接；

所述生成器由n个子网络组成，n个子网络的编码器共享信息，n个判别器相互独立，分别判断n种生成字体图片的真假，其中n是目标字体的种类数。

2.如权利要求1所述的方法，其特征是，所述获取待风格迁移的汉字图像步骤之后，所述将待风格迁移的汉字图像，输入到训练后的多任务对抗学习网络中步骤之前，还包括：对待风格迁移的汉字图像进行预处理。

3.如权利要求1所述的方法，其特征是，所述编码器中的每一个卷积层均与对应解码器的一个反卷积层进行连接，工作原理是：

4.如权利要求1所述的方法，其特征是，所述每一个单通道对抗学习网络的每一层卷积层均与其他任意一个单通道对抗学习网络对应层数的卷积层连接，具体是指：

5.如权利要求1所述的方法，其特征是，所述多任务对抗学习网络，训练过程包括：

6.如权利要求1所述的方法，其特征是，所述单通道对抗学习网络，是指训练后的单通道对抗学习网络；

同样的，单通道对抗学习网络的训练过程包括：

7.基于多任务对抗学习网络的汉字风格迁移系统，其特征是，包括：

获取模块，其被配置为：获取待风格迁移的汉字图像；

输出模块，其被配置为：训练后的多任务对抗学习网络，输出风格迁移后的多种字体图像；

所述多任务对抗学习网络，包括：

若干个并列的单通道对抗学习网络；

每个单通道对抗学习网络均包括生成器和判别器；

每个生成器，均包括依次连接的编码器和解码器；

8.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。