CN110033054A

CN110033054A - 基于协同笔画优化的个性化手写体迁移方法和系统

Info

Publication number: CN110033054A
Application number: CN201910195271.XA
Authority: CN
Inventors: 张娅; 汶川; 常杰; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-07-19
Anticipated expiration: 2039-03-14
Also published as: CN110033054B

Abstract

本发明提供了一种基于协同笔画优化的个性化手写体迁移方法和系统，该方法，包括：根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理，以使得所述待输入的汉字与所述目标汉字的骨架对齐；将形变处理之后的汉字输入目标神经网络，通过所述目标神经网络输出对应的目标汉字；其中，所述目标神经网络是指经过训练的对抗生成网络，用于将输入的汉字转换为目标字体汉字。从而实现依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字，甚至能够做到个性化手写字体定制，能够快速、准确、逼真地生成目标字体。

Description

基于协同笔画优化的个性化手写体迁移方法和系统

技术领域

本发明涉及计算机视觉和图像处理技术领域，具体地，涉及基于协同笔画优化的个性化手写体迁移方法和系统。

背景技术

字体是媒体内容创意的重要组成部分，在当代社会各种视觉传达设计中得到广泛的应用，满足了大众传媒的多方位、多层面的需求。一套中文字体的开发需要投入大量的人力和时间成本。不同于仅包含52个字符的英文字母(涵盖大小写)，目前，最低标准的汉字编码字符集——GB2312-80国标码中共选入了6763个汉字(包含一级常用汉字3755个，二级次常用汉字3008个)。因此，如何提高字体设计的效率，降低时间和人力成本是一个非常值得研究的现实问题。

一直以来，自动化的字体生成被认为是解决该问题的主要技术手段。目前研究最多的是基于汉字分解和笔画重组的自动化字体生成方法。这类方法依赖一系列传统的算法对已设计好的(或手写好的)汉字进行结构化分解，提取出笔画、部首等零部件，然后利用对零部件的重组去合成全套字库。由于基于汉字分解和笔画重组的方法仍然过于繁琐，近年来，少数研究开始着重于利用深度学习的优势，将自动化字体生成任务建模成基于图像转换的字体生成任务。

但是，现有的方法主要由如下两个局限：现有基于图像转换的字体生成模型都没有考虑在模型中引入对汉字笔画进行优化的过程或模块；大多数已有的字体生成方法都依赖于大量的配对训练样本(3000对)来学习，并不能大幅度降低时间和人力成本，实用性并不强。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于协同笔画优化的个性化手写体迁移方法和系统。

第一方面，本发明实施例一种基于协同笔画优化的个性化手写体迁移方法，包括：

根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理，以使得所述待输入的汉字与所述目标汉字的骨架对齐；

将形变处理之后的汉字输入目标神经网络，通过所述目标神经网络输出对应的目标汉字；其中，所述目标神经网络是指经过训练的对抗生成网络，用于将输入的汉字转换为目标字体汉字。

可选地，在根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理之前，还包括：

构建源字体集合，并从所述源字体集合中选取预设数量的源汉字添加至训练集中；其中，所述训练集中还包含有与源汉字一一对应的目标汉字；

对所述训练集中的源汉字进行平移、缩放处理，得到所有源汉字的偏旁和部首的形状信息、位置信息；

根据目标汉字的平均区域占比和平均长宽比，对所述训练集中的源汉字进行尺寸和比例的形变处理，以使得所述源汉字与所述目标汉字的骨架对齐；

构建初始神经网络，所述初始神经网络包括：目标分支、优化分支、判别器；

将形变处理后的源汉字输入所述初始神经网络，通过优化分支将源汉字转换为加粗版本的目标字体汉字；

通过所述目标分支将源汉字转换为初始目标字体汉字，并根据所述优化分支输出的加粗版本的目标字体汉字，对所述目标分支输出的初始目标字体汉字进行修正，得到目标字体汉字；

通过判别器对目标分支输出的目标字体汉字进行判别，并根据判别结果和预设的损失函数调整所述初始神经网络的参数，直到所述判别器判定所述目标分支输出的目标字体汉字与所述目标汉字一致，且损失函数在预设的误差范围内时，得到训练完成的目标神经网络。

可选地，构建源字体集合，包括：

选择一批固定的汉字构成源字体集合，经过挑选，可选择出450个单元素汉字和150×2个复合汉字构建源字体集合。

可选地，所述目标分支和所述优化分支均为全卷积神经网络，且所述目标分支和所述优化分支共享部分卷积层，共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中，直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。

可选地，根据所述优化分支输出的加粗版本的目标字体汉字，对所述目标分支输出的初始目标字体汉字进行修正，得到目标字体汉字，包括：

所述目标分支和所述优化分支共享的部分卷积层构成编码器和解码器，其中，所述编码器通过一系列卷积操作将输入的汉字转换为尺度固定的三维特征向量，所述解码器用于将三维特征向量通过一系列解卷积和卷积操作解码为预设分辨率的特征图；

所述优化分支将预设分辨率的特征图进行一系列解卷积和卷积操作后，解码成加粗版本的目标字体汉字，将所述加粗版本的目标字体汉字作为所述目标分支输出的监督信息；将所述加粗版本的目标字体汉字通过形态学变换变细后在经过一层卷积，得到细化后的特征图，将所述细化后的特征图作为所述目标分支的补偿特征图；

所述目标分支将将预设分辨率的特征图进行一系列解卷积和卷积操作后，解码成初始目标字体汉字，所述目标分支以原始目标字体y₁为监督信息；在解码的过程中，将优化分支的补偿特征图与初始目标字体汉字对应的特征图拼接，得到拼接特征图；再对所述拼接特征图进行解卷积和卷积操作，输出目标字体汉字。

可选地，所述判别器根据预设的判别标准，对目标分支输出的目标字体汉字进行判别，若判定结果为真，则输出1；若判定结果为假，则输出0；

所述损失函数包括如下损失函数项：

其中：表示第一支生成器G₁的像素级损失，G₁表示第一支生成器，表示当输入为x输出为y₁时公式的数学期望，表示生成的目标字体，x表示迁移前的源字体，y₁表示目标字体，D₁表示第一判别器，表示第一支生成器和第一支判别器的对抗性损失，D₁(x,y₁)表示当输入为x和y₁时第一支判别器的输出，E表示数学期望，D₁(x,G₁(x))表示当输入为x和G₁(x)时第一支判别器的输出，G₁(x)表示输入为x时第一支生成器的生成结果；

y₂＝f(y₁)

整个网络由联合优化；

其中：表示第二支生成器G₂的像素级损失，G₂表示第二支生成器，表示当输入为x输出为y₂时公式的数学期望，y₂表示目标字体的加粗版本，表示生成的加粗目标字体，表示第二支生成器和第二支判别器的对抗性损失，D₂表示第二判别器，D₂(x,y₂)表示当输入为x和y₂时第二支判别器的输出，D₂(x,G₂(x))表示当输入为x和G₂(x)时第二支判别器的输出，G₂(x)表示输入为x时第二支生成器的生成结果，f(y₁)表示对y₁进行加粗操作；

其中，x，y₁和y₂都经过缩放增强和预形变处理。

第二方面，本发明实施例提供一种基于协同笔画优化的个性化手写体迁移系统，包括：

预处理模块，用于根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理，以使得所述待输入的汉字与所述目标汉字的骨架对齐；

处理模块，用于将形变处理之后的汉字输入目标神经网络，通过所述目标神经网络输出对应的目标汉字；其中，所述目标神经网络是指经过训练的对抗生成网络，用于将输入的汉字转换为目标字体汉字。

可选地，还包括：

训练集构建模块，用于构建源字体集合，并从所述源字体集合中选取预设数量的源汉字添加至训练集中；其中，所述训练集中还包含有与源汉字一一对应的目标汉字；

训练模块，用于对所述训练集中的源汉字进行平移、缩放处理，得到所有源汉字的偏旁和部首的形状信息、位置信息；

可选地，所述训练集构建模块，具体用于：

与现有技术相比，本发明具有如下的有益效果：

本发明提供了一种基于协同笔画优化的个性化手写体迁移方法和系统，通过根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理，以使得所述待输入的汉字与所述目标汉字的骨架对齐；将形变处理之后的汉字输入目标神经网络，通过所述目标神经网络输出对应的目标汉字；其中，所述目标神经网络是指经过训练的对抗生成网络，用于将输入的汉字转换为目标字体汉字。从而实现依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字，甚至能够做到个性化手写字体定制，能够快速、准确、逼真地生成目标字体。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的基于协同笔画优化的个性化手写体迁移方法的流程图；

图2本发明印刷字体效果展示图；

图3本发明手写字体效果展示图；

图4为本发明实施例提供的训练方法的流程图；

图5本发明数据选择策略选取出的训练集；

图6为本发明实施例提供的基于协同笔画优化的个性化手写体迁移系统的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

针对现有技术的缺陷，本发明的目的是提供一种基于协同笔画优化的个性化手写体迁移系统。本发明提出了一个新的轻量级CNN框架成功解决了上述两个问题。它主要包含两个创新点：协同笔画优化和在线缩放-增强。特别地，该模型除了仅需要少量配对的训练样本(例如750个配对的训练样本)之外，不再需要任何预先训练的网络、额外的数据集资源和额外的标注汉字部首或结构的标签。

首先，本发明基于协同笔画优化的个性化手写字体迁移系统使用了传统的“图像到图像”生成的CNN结构，整体为一个端到端的系统，训练过程只需提供成对的字体图片即可进行训练，预处理和数据增强均为在线模式，结构简单，使用方便。由于整个系统为生成任务，所以本发明使用了近年来收到极大关注的生成对抗网络，引入了对抗训练的方法。对抗训练的方法可以使得模型学到与已给图片相同分布的伪图片，从而提高生成目标字体的逼真度。

除此之外，为了解决现有的方法所需数据量过大、手写字体笔画生成不够精细甚至有缺失的问题，本发明基于协同笔画优化的个性化手写字体迁移系统提出了一种选择数据集的策略和在线缩放-增强方法以及协同笔画优化的结构。

图1为本发明实施例提供的基于协同笔画优化的个性化手写体迁移方法的流程图，如图1所示，本实施例中的方法可以包括：

S101、根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理，以使得待输入的汉字与目标汉字的骨架对齐。

S102、将形变处理之后的汉字输入目标神经网络，通过目标神经网络输出对应的目标汉字。

本实施例中，目标神经网络是指经过训练的对抗生成网络，用于将输入的汉字转换为目标字体汉字。图2本发明印刷字体效果展示图，如图2所示，每栏左列为目标字体，右列为生成字体。图3本发明手写字体效果展示图，如图3所示，每栏左列为目标字体，右列为生成字体。

本系统利用输入源字体图像生成目标字体图像，在训练过程中，输入字体图像先经过在线缩放-增强模块和自适应预形变模块进行数据增强和生成域的匹配，再通过协同笔画优化模块进行目标版本和加粗版本的协同训练，并利用加粗版本作为补偿信息最终生成笔画较精细的目标字体，最后通过判别器来对生成的目标字体和与之对应的金标准进行真伪判别，借助对抗训练的方法，不断优化协同笔画优化模块，使之能输出更逼真的生成目标字体。

图4为本发明实施例提供的训练方法的流程图，如图4所示，本实施例中的方法可以包括：

S201、构建源字体集合，并从源字体集合中选取预设数量的源汉字添加至训练集中。

S202、对训练集中的源汉字进行平移、缩放处理，得到所有源汉字的偏旁和部首的形状信息、位置信息。

S203、根据目标汉字的平均区域占比和平均长宽比，对训练集中的源汉字进行尺寸和比例的形变处理，以使得源汉字与目标汉字的骨架对齐。

S204、构建初始神经网络，初始神经网络包括：目标分支、优化分支、判别器。

S205、将形变处理后的源汉字输入初始神经网络，通过优化分支将源汉字转换为加粗版本的目标字体汉字。

S206、通过目标分支将源汉字转换为初始目标字体汉字，并根据优化分支输出的加粗版本的目标字体汉字，对目标分支输出的初始目标字体汉字进行修正，得到目标字体汉字。

S207、通过判别器对目标分支输出的目标字体汉字进行判别，并根据判别结果和预设的损失函数调整初始神经网络的参数，直到判别器判定目标分支输出的目标字体汉字与目标汉字一致，且损失函数在预设的误差范围内时，得到训练完成的目标神经网络。

训练方法的具体过程具体如下：

首先，在整个系统运行之前，先根据挑选出750个字的源图像集X和目标图像集Y构成的小数据集S_D中所有配对数据(i表示第i个训练样本)，图5本发明数据选择策略选取出的训练集。计算Y中汉字区域的平均占比r₁和汉字的高-宽平均比例r₂。找到每个中的最小汉字包围框bⁱ，bⁱ的高度和宽度分别是hⁱ和wⁱ，hⁱ和wⁱ均小于64。r₁和r₂分别为

其中，N为训练样本数且N＝750。根据上面的两个统计数据，我们对每个x_i进行预形变，以使x_i的汉字区域与y_i对齐。形变结果为：

x_i←R₂(R₁(x_i))

其中，R₁和R₂分别表示关于r₁的尺寸形变和关于r₂的高-宽比例形变。经过这一步，xⁱ的汉字骨架大致与对齐，这实际上降低了CNN模型对笔画的形变进行拟合的难度。具体来说，模型不会“费心”去尝试拟合笔画的尺寸信息，而可以更关注对笔画扭曲的学习。

将输入的64×64×1的字体灰度图片根据统计得到的r₁和r₂进行预形变后，再进行在线缩放-增强：当配对图像(x,y₁)被输入模型进行训练时，我们随机缩放在图片中原本居中的汉字区域以改变它的宽-高比。然后我们在图像中水平或垂直地平移该汉字区域。假设图像中的每个汉字区域都是h:w比例，那么的缩放结果将在图像中垂直平移(主要平移到上/中/下位置)，而的缩放结果将被水平平移(主要平移到左/中/右位置)。此外，的缩放结果将平移到任何可能的位置。如果我们将任何可能的缩放-平移操作写为则当x被某个具体的缩放-平移操作变换后，同样的操作也施加到y₁上，即：

其中表示所有可能的缩放-平移操作概率空间。基本上，当“单元素”汉字作为另一个“复合”汉字的组件出现时，这些增强的结果会模仿任何可能的形状和位置。因此，作为增强的训练样本，他们使得CNN模型在有限的数据集下尽可能地隐式地学习汉字的形变/位置多样性和结构信息。

经过预形变和在线缩放-增强后的图片进入“粗糙生成器”，该模块由全卷积神经网络的编码子模块和解卷积、卷积混合的解码子模块构成：

编码模块中，第奇数个卷积层保持前层输出的特征向量的高H、宽W尺度不变，通道数C为前层的2倍；第偶数个卷积层保持前层输出特征向量的通道数C不变，高H、宽W尺度变为前层的1/2。最终，将输入图片编码为4×4×512的特征图。

解码模块中，第奇数个为“解卷积层”，保持前层输出特征向量的通道数C不变，高H、宽W尺度变为前层的2倍；第偶数个卷积层保持前层输出的特征向量的高H、宽W尺度不变，通道数C为前层的1/2。由于该模块为“粗糙生成器”，所以，解码模块相较编码模块较短，输出的数据为32×32×128的较低分辨率的特征图。

“粗糙生成器”的输出特征图进入协同笔画优化模块：源图片x经过“粗糙生成器”映射成为32×32×128的较低分辨率的特征图。随后有两个并行分支：目标分支和优化分支。目标分支用来生成我们原本迁移任务的输出并且该分支利用原始任务y₁作为监督信号。同时的，优化分支用来生成辅助迁移任务的输出该分支利用y₂作为监督信号。特别的，y₂是原始目标字体y₁的加粗版本。y₂是通过形态学膨胀操作f(·)得到的：

其中，y₁是原始目标字体，y₂是y₁的加粗版本，e是结构元素，z表示y₁的像元，φ表示空集。

相比于refine branch生成的保留了更合理的笔画和更准确的结构。然而，不能直接被dominated branch用来优化因为比于y₁更有更粗的笔画。所以会被f(·)的反向操作进一步腐蚀，即侵蚀操作g(·)：

其中，是refine branch的生成结果，e是结构元素，z表示的像元。

细化结果仍然保留了比更合理的笔画和更准确的结构。我们通过单层CNN将映射到32×32×64的特征图，然后将此特征映射拼接到目标分支中相同尺度的特征层中作为补偿信息，用以纠正生成的笔画存在的缺失或偏差问题。我们还可以进一步实施侵蚀操作以获得更细的版本“渐进式”地将其拼接到目标分支。

另外，我们分别在目标分支和优化分支中引入了层次对抗判别器(HierarchicalAdversarial Discriminator)使得整个网络可以进行对抗训练。

在本实施例中，损失函数共由4个损失函数项组成，它们可以分为两组：和

其中(x,y₁)是配对训练样本；x是迁移前的源字体，y₁是目标字体。D₁表示第一判别器，G₁包括“粗糙生成器”和目标分支。

其中y₂是目标字体的加粗版本，y₂＝f(y₁)。D 2表示第二判别器2，G 2只包含优化分支。

整个网络由联合优化。其中，x，y₁和y₂都经过缩放-增强和预形变处理。

综上，本发明利用在线缩放-增强模块显著减少训练数据，利用自适应预形变模块进行输入域与目标域的匹配，利用协同笔画优化模块对粗生成的汉字进行笔画精细化处理并得到生成字体，利用判决器对生成目标字体和与之对应的真实目标字体进行真伪判别，不断优化汉字迁移模块，使之能输出更逼真的生成目标字体。本发明能够基于协同笔画优化依靠少量数据集将任一印刷体汉字迁移成另一印刷体或手写体汉字，甚至能够做到个性化手写字体定制。

图6为本发明实施例提供的基于协同笔画优化的个性化手写体迁移系统的结构示意图，如图6所示，本实施例的系统可以包括：

预处理模块31，用于根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理，以使得待输入的汉字与目标汉字的骨架对齐；

处理模块32，用于将形变处理之后的汉字输入目标神经网络，通过目标神经网络输出对应的目标汉字；其中，目标神经网络是指经过训练的对抗生成网络，用于将输入的汉字转换为目标字体汉字。

训练集构建模块33，用于构建源字体集合，并从源字体集合中选取预设数量的源汉字添加至训练集中；其中，训练集中还包含有与源汉字一一对应的目标汉字；

训练模块34，用于对训练集中的源汉字进行平移、缩放处理，得到所有源汉字的偏旁和部首的形状信息、位置信息；

根据目标汉字的平均区域占比和平均长宽比，对训练集中的源汉字进行尺寸和比例的形变处理，以使得源汉字与目标汉字的骨架对齐；

构建初始神经网络，初始神经网络包括：目标分支、优化分支、判别器；

将形变处理后的源汉字输入初始神经网络，通过优化分支将源汉字转换为加粗版本的目标字体汉字；

通过目标分支将源汉字转换为初始目标字体汉字，并根据优化分支输出的加粗版本的目标字体汉字，对目标分支输出的初始目标字体汉字进行修正，得到目标字体汉字；

通过判别器对目标分支输出的目标字体汉字进行判别，并根据判别结果和预设的损失函数调整初始神经网络的参数，直到判别器判定目标分支输出的目标字体汉字与目标汉字一致，且损失函数在预设的误差范围内时，得到训练完成的目标神经网络。

本实施例的基于协同笔画优化的个性化手写体迁移系统，可以执行图1、图4所示方法中的技术方案，其具体实现过程和技术原理参见图2、图4所示方法中的相关描述，此处不再赘述。

需要说明的是，本发明提供的基于协同笔画优化的个性化手写体迁移方法中的步骤，可以利用基于协同笔画优化的个性化手写体迁移系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于协同笔画优化的个性化手写体迁移方法，其特征在于，包括：

2.根据权利要求1所述的基于协同笔画优化的个性化手写体迁移方法，其特征在于，在根据目标汉字的平均区域占比和平均长宽比，对待输入的汉字进行尺寸和比例的形变处理之前，还包括：

3.根据权利要求2所述的基于协同笔画优化的个性化手写体迁移方法，其特征在于，构建源字体集合，包括：

4.根据权利要求2所述的基于协同笔画优化的个性化手写体迁移方法，其特征在于，所述目标分支和所述优化分支均为全卷积神经网络，且所述目标分支和所述优化分支共享部分卷积层，共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中，直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。

5.根据权利要求4所述的基于协同笔画优化的个性化手写体迁移方法，其特征在于，根据所述优化分支输出的加粗版本的目标字体汉字，对所述目标分支输出的初始目标字体汉字进行修正，得到目标字体汉字，包括：

6.根据权利要求2所述的基于协同笔画优化的个性化手写体迁移方法，其特征在于，所述判别器根据预设的判别标准，对目标分支输出的目标字体汉字进行判别，若判定结果为真，则输出1；若判定结果为假，则输出0；

所述损失函数包括如下损失函数项：

y₂＝f(y₁)

整个网络由联合优化；

其中，x，y₁和y₂都经过缩放增强和预形变处理。

7.一种基于协同笔画优化的个性化手写体迁移系统，其特征在于，包括：

8.根据权利要求7所述的基于协同笔画优化的个性化手写体迁移装置，其特征在于，还包括：

9.根据权利要求8所述的基于协同笔画优化的个性化手写体迁移装置，其特征在于，所述训练集构建模块，具体用于：

10.根据权利要求8所述的基于协同笔画优化的个性化手写体迁移装置，其特征在于，所述目标分支和所述优化分支均为全卷积神经网络，且所述目标分支和所述优化分支共享部分卷积层，共享的部分卷积层生成的特征图分别输入到所述目标分支和所述优化分支的其余卷积层中，直到输出目标字体汉字对应的特征图、加粗版本的目标字体汉字对应的特征图。