CN110427989B

CN110427989B - 汉字骨架自动合成方法及大规模中文字库自动生成方法

Info

Publication number: CN110427989B
Application number: CN201910649353.7A
Authority: CN
Inventors: 连宙辉; 唐树森; 夏泽青; 唐英敏; 肖建国
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-07-09
Anticipated expiration: 2039-07-18
Also published as: CN110427989A

Abstract

本发明公布了一种汉字骨架自动合成方法及大规模中文字库的自动生成方法，将中文字符视为点的序列(即书写轨迹)，通过构建具有单调注意力机制的循环神经网络模型FontRNN来进行汉字骨架的自动合成，从少量训练样本中学习合成其余具有相同风格的汉字字符，实现汉字骨架的自动合成。本发明可克服现有汉字合成技术存在的合成汉字模糊、笔画丢失、结构错误等不足，且本发明模型可以从仅仅几百个训练样本中学习如何合成其余数千个具有相同风格的汉字字符。因此，本发明可以极大地降低制作大规模中文字库的成本，具有很大的实际应用价值。

Description

汉字骨架自动合成方法及大规模中文字库自动生成方法

技术领域

本发明涉及一种基于循环神经网络的汉字骨架自动合成方法及大规模中文字库的自动生成方法，采用循环神经网络对序列形式的少量汉字轨迹进行建模，自动生成大量同风格的汉字，属于人工智能、计算机图形处理技术领域。

背景技术

随着我国人民生活水平的不断提高，人们对个性字库的需求越来越大。然而，由于汉字的多样性，例如，国标GB18030-2000包含27533个汉字，即使日常使用的国标GB 2312也包含了6763个汉字，而且汉字的结构往往错综复杂，因此，使用传统方法制作一套中文字库是一项相当费时费力的任务。如何利用计算机技术实现快速自动地合成大规模中文字库成为了一个亟待解决的问题。

当前，深度神经网络技术的发展为中文字库的自动合成技术提供了可能性。由于卷积神经网络(CNN)在各个应用领域的成功运用，现有技术方案大多将一个汉字看作是一张图片然后采用卷积神经网络来进行汉字图片的自动合成。然而，基于卷积神经网络的模型只关注了汉字图像级特征，而完全忽略了汉字内在的很重要的笔画顺序信息，所以合成的汉字不可避免的会出现模糊、笔画缺失、结构错误等问题。

发明内容

为了解决上述现有技术存在的问题，本发明提供一种使用循环神经网络对汉字进行建模并自动合成汉字的方法，将中文字符视为点的序列(即书写轨迹)，通过构建具有单调注意力机制的循环神经网络(RNN)模型(下文简称该模型为FontRNN)来进行汉字骨架的自动合成，可克服现有汉字合成技术存在的合成汉字模糊、笔画丢失、结构错误等不足，且该模型可以从仅仅几百个训练样本中学习如何合成其余数千个具有相同风格的汉字字符。因此，本发明可以极大地降低制作大规模中文字库的成本，具有很大的实际应用价值。

本发明约定如下术语定义：

参考字：神经网络的输入之一，作用是告知神经网络应该输出哪一个汉字，可以看作是汉字内容信息；

目标字：神经网络的输入之一，仅仅出现在训练阶段，带有某种汉字风格，是神经网络学习的输出目标；

FontRNN：本发明建立的用于自动合成汉字的具有单调注意力机制的循环神经网络模型。

本发明的技术方案如下：

一种基于循环神经网络的汉字骨架的自动合成方法，将中文字符视为书写轨迹的点的序列，构建具有单调注意力机制的用于自动合成汉字的循环神经网络模型FontRNN，从少量训练样本中学习合成其余具有相同风格的汉字字符，由此实现汉字骨架的自动合成；包括如下步骤：

第一步，获取参考字骨架和目标字骨架，作为训练集；

具体实施时，获取775个参考字的骨架和目标字的骨架作为训练集；

第二步，构建具有单调注意力机制的用于自动合成汉字的循环神经网络模型FontRNN；在训练阶段，用第一步得到的训练集训练FontRNN直到收敛，使其学习如何根据参考字骨架生成对应的目标字骨架，得到训练好的FontRNN；

第三步，利用训练好的FontRNN接收未在训练阶段出现过的参考字骨架，作为输入，自动合成得到其对应的目标字骨架。

第四步，利用一个简单的卷积神经网络模型作为外轮廓恢复模型，恢复第三步得到的目标字骨架的外轮廓形状。

下面对每一步进行具体描述。

第一步，具体实施时，从国标GB 2312共6763个汉字中选取包含775个汉字的字符集作为训练集，其余的汉字可作为测试集。对于775个汉字中的每个汉字，采用骨架提取算法提取得到其目标字骨架。此外，参考字骨架通过收集现有字体的骨架然后取平均得到。

本发明提取每个汉字的骨架作为FontRNN所需要的数据格式。汉字通常由几个有序笔画组成，每个笔画又由若干个点组成，故汉字被表示为点的序列，而循环神经网络就能很好地对序列进行建模。本发明用国标GB 2312中的775个字的骨架作为训练样本，具体采用文献“Lian Z,Zhao B,Xiao J.Automatic generation of large-scale handwritingfonts via style learning[C]//SIGGRAPH ASIA 2016 Technical Briefs.ACM,2016:12.”所选用的775个字及骨架提取算法，每个训练样本包含参考字骨架及其对应的目标字骨架。本发明收集现有的一些字体的骨架，然后对不同风格相同笔画进行相同点数的关键点(对于不同风格的相同笔画，采样相同数量的关键点，包括开始点、结束点、转折点等)采样，再对关键点的坐标取平均作为参考字骨架。

第二步，构建具有单调注意力机制的用于自动合成汉字的循环神经网络模型FontRNN；FontRNN模型包括：编码器、解码器、单调注意力模块、二维高斯混合模型和分类模型；

具体地：

编码器是一个双向神经网络；解码器是单层的循环神经网络；编码器和解码器所使用的循环神经网络都是长短时记忆网络(LSTM)，神经元个数都为256；

编码器接收参考字骨架作为输入并对其进行编码，得到一个隐藏状态序列，这个隐藏状态序列会输入到单调注意力模块；

单调注意力模块根据当前时刻解码器的隐藏态和编码器输出的每个隐藏态计算每个编码器隐藏态的权重，然后对每个编码器隐藏态进行加权求和得到当前解码时刻的上下文向量，这个上下文向量会输入到解码器进行解码。作为连接编码器和解码器的桥梁，注意力模块使解码器在每一步解码能更加专注；根据单调注意机制计算得到上下文向量c_i；

单调注意力模块具体采用文献(Raffel C,Luong M T,Liu P J,et al.Onlineand linear-time attention by enforcing monotonic alignments[C]//Proceedingsof the 34th International Conference on Machine Learning-Volume 70.JMLR.org,2017:2837-2846.)记载的单调注意力模块；

在每个解码时刻，解码器根据上一时刻注意力模块输出的上下文向量和目标字骨架输入进行解码，获得当前解码器隐藏状态，然后将解码器隐藏状态输入到二维高斯混合模型和分类模型中；本发明采用的二维高斯混合模型由20个二维高斯分布组成，每一个分布由方差向量(两个标量)、均值向量(两个标量)和相关系数共5个标量参数确定，再加上每个分布的权重参数，二维高斯混合模型一共包含120个参数。本发明将解码器隐藏状态经过线性变化映射到120维即可确定这个二维高斯混合模型，并对每个分布进行采样然后加权平均得到输出点的相对坐标。每个输出点可以被分成3类(详见具体实施方式)，本发明将解码器隐藏状态经过线性变化映射到3维，每一维代表一类即可预测输出点类别。

通过二维高斯混合模型和分类模型得到当前时刻尽可能与目标相同的输出。

基于构建的FontRNN模型，用训练集中的参考字骨架和目标字骨架训练FontRNN模型。

本发明使用梯度下降算法训练FontRNN网络模型，使FontRNN的输出与目标字骨架尽可能接近，得到训练好的FontRNN模型。需要注意的是，本发明仅仅在训练过程中会输入目标字骨架，在测试阶段则没有输入目标字骨架。FontRNN所合成的骨架结果如附图3所示，其中第一行为参考字骨架，接下来每两行代表一种字体，其中上方的是实际的汉字骨架而下方的是FontRNN所合成的对应的汉字骨架。由附图3可以看出，本发明所合成的汉字骨架和实际的骨架相似度高，说明本发明所提出的FontRNN可较好的表达汉字骨架。

具体实施时，训练阶段包括如下操作：

21)使用批大小为128的Adam优化算法，并进行梯度不大于1.0的裁剪；初始学习率为0.001，并按照0.0001的衰减率在每次训练迭代后对学习率进行衰减。

22)为了避免神经网络的过拟合，使用保持概率为0.6的丢弃策略(Dropout)以及数据增强策略：将数据点的相对坐标(Δx,Δy)乘以一个位于0.90和1.10之间的随机数，并按照0.1的几率随机丢弃一些数据点。

23)将参考字骨架和其对应的目标字骨架(仅供训练)输入到FontRNN模型，训练合成目标字骨架；具体来讲，包括：

231)由双向循环神经网络构成的编码器将参考字骨架(用点序列[R₁,R₂,…,R_L]表示，其中L是该骨架的实际点数)作为输入，并输出循环神经网络的所有隐藏状态

232)单调注意力模块以编码器的输出

和解码器当前时间步隐藏状态h_i为输入；

233)根据单调注意机制计算得到上下文向量c_i；

234)通过向解码器输入上一个时间步的上下文向量c_i-1和目标输入T_i-1，在训练阶段获得当前解码器隐藏状态h_i；

235)将h_i和c_i拼接起来，经过一个二维高斯混合模型和分类模型得到目标骨架当前时刻的输出T′_i。

需要注意的是，在测试阶段，与训练过程不同，解码器在第i时刻的目标骨架输入是前一步的输出T′_i-1，即本发明仅仅在训练过程中会输入目标字骨架，在测试阶段没有目标字骨架输入。

第三步，FontRNN训练好后就可以进行新的汉字骨架合成。对于一个没有在训练阶段出现过的的参考字骨架，本发明将其输入到网络中，网络会就自动合成与其对应的带有预训练目标字相同风格的目标字骨架。由此本发明就可以得到整个汉字集合的带有目标风格的汉字骨架。

利用上述基于循环神经网络的汉字骨架的自动合成方法，可实现大规模中文字库的自动生成。为了合成完整的中文字库，本发明还使用一个简单的外轮廓恢复模型来学习如何恢复汉字骨架的外轮廓，模型结构如附图4所示。具体来讲，该模型包含两个包含U-net连接的编解码器结构(U-net是文献“Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//InternationalConference on Medical image computing and computer-assistedintervention.Springer,Cham,2015:234-241.”记载的编解码器)，其中第一个编解码器用来恢复骨架的外轮廓形状，而第二个编解码器则用来提取骨架，即用一种循环优化的方式使合成的外轮廓更加逼真。本发明用步骤一所述的775个参考字的骨架和目标字的骨架样本及其对应的汉字外轮廓样本来训练此外轮廓恢复模型，利用训练好的模型，通过恢复第三步得到的目标字骨架的外轮廓，得到整个汉字集合的带有目标风格(包括骨架和轮廓两个方面)的汉字图片，由此生成大规模中文字库。

与现有技术相比，本发明具有如下优势：

(1)相比于其他技术对图片格式的汉字进行建模，本发明对序列形式的汉字进行建模，能够保留对于汉字来说很重要的时序信息，更能够反应人类的书写过程，赋予了人工智能“书写”的技能。

(2)相比于其他技术，本发明合成的汉字结果很少出现模糊、笔画缺失、结构错误等问题，对比图如附图5所示。

(3)相比于其他技术，由于模拟了人类的一笔一划的书写过程，本发明在笔画的交叉处具有更好的合成效果，不会出现粘连、错位等情况，如附图6所示。

附图说明

图1为序列格式的两个汉字(骨架)的示例，其中数字代表书写顺序。

图2为本发明提出的模型FontRNN的结构框图；

其中，编码器是一个双向循环神经网络，解码器是循环神经网络。

图3为利用本发明提出的FontRNN模型对测试集的汉字骨架进行合成的结果；

其中，第一排为参考字骨架；接下来每两排代表一种字体，其中上方的是实际的汉字骨架，而下方的是FontRNN所合成的对应的骨架。

图4为本发明实施例中用于恢复汉字骨架外轮廓的卷积神经网络模型的结构示意图。

图5为采用本发明方法所合成的汉字与采用其他方法所合成的汉字结果的对比图；

其中，最后一排为目标汉字，倒数第二排为本发明的合成结果，前四排为采用其他技术的合成结果。

图6为本发明在汉字笔画交叉处与其他技术的对比图；

其中，最后一排为目标汉字，倒数第二排为本发明的合成结果，前四排为其他技术的合成结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明将有多种字体(例如楷体、宋体…)的骨架都提取出来，这些骨架即目标字骨架。将来自不同字体的同一个字(例如“啊”)的骨架取平均即得到了字“啊”的平均骨架，也即该字的参考骨架。具体实施时，目标字体是一个全新的字体，本发明通过构建具有单调注意力机制的用于自动合成汉字的循环神经网络模型FontRNN，设计775个目标字然后提取其骨架，再将剩余6763-775＝5988个目标字自动生成出来；由此实现从少量训练样本中学习合成其余具有相同风格的汉字字符，达到汉字骨架的自动合成的目的。

下面结合附图，通过实施例，进一步阐述本发明。

首先介绍本发明所使用的数据。附图1所示是两个汉字“阿”和“埃”的骨架示例，可以看出汉字骨架由若干有序的点组成，即一个汉字就是一个点的序列。具体而言，本发明用向量(Δx,Δy,p₁,p₂,p₃)表示每个点，其中(Δx,Δy)表示这个点相对于前一个点的相对坐标，而(p₁,p₂,p₃)是一个独热向量，p₁为1代表这个点是一个普通点，p₂为1代表这个点是一笔的结束点，p₃为1代表这个点是整个字的结束，它及其之后的点都不应该渲染出来。此外，为了使每个字的点数都为N_max，本发明对点数不足N_max的用(0,0,0,0,1)进行了补全。有了这样的数学表示后，本发明就可以将骨架预测分为两个部分：点相对坐标的预测和点的分类。本发明提出的FontRNN通过预测二维高斯分布的参数再对分布进行采样得到(Δx,Δy)，然后用一个分类模型对(p₁,p₂,p₃)进行预测。本发明从国标GB 2312共6763个汉字中选取775个作为训练集，剩下的作为测试集。对于每个汉字，本发明用骨架提取算法提取其骨架，得到的骨架如附图1所示。此外，参考骨架通过收集现有字体的骨架然后取平均得到。

附图2即本发明所提出的模型结构FontRNN，主要包含编码器、解码器、单调注意力模块、二维高斯混合模型和分类模型。具体来讲，编码器是一个双向神经网络而解码器是单层的循环神经网络，编码器和解码器所使用的循环神经网络都是长短时记忆网络(LSTM)，神经元个数都为256。训练阶段，本发明使用了批大小为128的Adam优化算法并进行了梯度不大于1.0的裁剪；训练初始学习率为0.001，并按照0.0001的衰减率在每次训练迭代后对学习率进行衰减。另外为了避免神经网络的过拟合，本发明使用了保持概率为0.6的丢弃策略(Dropout)以及数据增强策略：将数据点的相对坐标(Δx,Δy)乘以一个位于0.90和1.10之间的随机数以及按照0.1的几率随机丢弃一些数据点。FontRNN模型的输入包括参考字骨架和其对应的目标字骨架(仅供训练)，模型会在训练阶段学习如何合成目标字骨架。具体来讲，由双向循环神经网络构成的编码器将参考字骨架(用点序列[R₁,R₂,…,R_L]表示，其中L是该骨架的实际点数)作为输入，并输出循环神经网络的所有隐藏状态

单调注意力模块以编码器的输出

和解码器当前时间步隐藏状态h_i为输入，然后根据单调注意机制计算得到每个编码器输出

对应的权重α_j，然后对所有

加权求和得到上下文向量c_i。最后通过向解码器输入上一个时间步的上下文向量c_i-1和目标输入T_i-1，FontRNN可以在训练阶段获得当前解码器隐藏状态h_i,然后将h_i和c_i拼接起来经过一个二维高斯混合模型和分类模型得到目标骨架当前时刻的输出T′_i。需要注意的是，在测试阶段，与训练过程不同，解码器在第i时刻的目标骨架输入是前一步的输出T′_i-1，即本发明仅仅在训练过程中会输入目标字骨架，在测试阶段没有目标字骨架输入。综上，本发明使用少量(775个)参考汉字骨架和目标汉字骨架对来训练模型FontRNN，使其学习如何根据参考汉字骨架来生成目标汉字骨架，训练完成后就可以根据大量的未用作训练的参考汉字骨架得到对应的目标汉字骨架。附图3即本发明用FontRNN所合成的汉字骨架示例，证明了本发明所提出的FontRNN具有良好的汉字骨架合成性能。

为了得到完整的中文字库，本发明还使用了如附图4所示的神经网络进行汉字骨架外轮廓的合成。该模型包含两个类似U-net的编解码器结构，每个编码器(解码器)包含9层，每层由卷积(或解码器的反卷积)层、批量归一化(Batch normalization)和线性整流(ReLu)层组成。第一个编解码器用来恢复汉字骨架的外轮廓形状，第二个编解码器用来从汉字图片提取出其对应的骨架，即用一种循环优化的方式使合成的外轮廓更加精细。本发明依然用前面所述的775个样本来训练此模型，训练好后，就可以通过恢复步骤三得到的目标字骨架的外轮廓而得到整个汉字集合的目标字图片，从而达到根据少量(775个)现有汉字集合自动合成完整的(包含6763个字)中文字库的目的。

附图5是本发明合成的汉字与其他技术的合成结果对比示例，从图中可以看出，相比于其他技术，本发明合成的汉字结果很少出现模糊、笔画缺失、结构错误等问题。附图6为本发明在汉字笔画交叉处合成的结果与其他技术的对比，可以看到本发明的合成结果更加自然，与实际结果也更接近。由附图5和附图6可知，对于不同风格的字体，不管是从整体还是局部角度，本发明都具有良好的合成性能，鲁棒性强。

Claims

1.一种基于循环神经网络的汉字骨架的自动合成方法，将中文字符视为书写轨迹的点的序列，构建具有单调注意力机制的用于自动合成汉字的循环神经网络模型FontRNN，从少量训练样本中学习合成其余具有相同风格的汉字字符，由此实现汉字骨架的自动合成；包括如下步骤：

第一步，获取参考字骨架和目标字骨架，作为训练集；

编码器是一个双向神经网络；解码器是单层的循环神经网络；单调注意力模块为连接编码器和解码器的桥梁，用于使解码器在每一步解码更加专注，根据单调注意机制计算得到上下文向量c_i；

编码器接收参考字骨架作为输入并对其进行编码，得到一个隐藏状态序列；再将隐藏状态序列输入到单调注意力模块；

单调注意力模块根据当前时刻解码器的隐藏态和编码器输出的每个隐藏态计算每个编码器隐藏态的权重，然后对每个编码器隐藏态进行加权求和得到当前解码时刻的上下文向量；将所述上下文向量输入到解码器进行解码；

在每个解码时刻，解码器根据上一时刻注意力模块输出的上下文向量和目标字骨架输入进行解码，获得当前解码器隐藏状态；然后将解码器隐藏状态输入到二维高斯混合模型和分类模型中预测输出点的相对坐标及其类别，得到当前时刻与目标尽可能相同的输出；

在训练阶段，用第一步得到的训练集训练FontRNN直到收敛，得到训练好的FontRNN；

第三步，利用训练好的FontRNN接收未在训练阶段出现过的参考字骨架，作为输入，自动合成得到其对应的目标字骨架；

第四步，利用一个简单的卷积神经网络模型作为外轮廓恢复模型，恢复第三步得到的目标字骨架的外轮廓形状；

通过上述步骤，实现基于循环神经网络的汉字骨架的自动合成。

2.如权利要求1所述基于循环神经网络的汉字骨架的自动合成方法，其特征是，第一步中，具体从国标GB 2312共6763个汉字中选取包含775个汉字的字符集作为训练集，余下的汉字作为测试集；对于775个汉字中的每个汉字，采用骨架提取算法提取其骨架，作为FontRNN所需要的数据格式。

3.如权利要求1所述基于循环神经网络的汉字骨架的自动合成方法，其特征是，每个训练样本包含参考字骨架及其对应的目标字骨架；获取参考字骨架具体是：收集现有字体的骨架，然后对不同风格相同笔画进行相同点数的关键点采样，再对关键点的坐标取平均作为参考字骨架。

4.如权利要求1所述基于循环神经网络的汉字骨架的自动合成方法，其特征是，第二步构建的FontRNN模型的编码器和解码器所使用的循环神经网络均为长短时记忆网络LSTM，神经元个数均为256。

5.如权利要求1所述基于循环神经网络的汉字骨架的自动合成方法，其特征是，第二步构建的FontRNN模型的二维高斯混合模型由20个二维高斯分布组成，一共包含120个参数；每一个分布由方差向量、均值向量和相关系数参数确定；每个分布包括权重参数；将解码器隐藏状态经过线性变化映射到120维，即可确定二维高斯混合模型，并对每个分布进行采样然后加权平均得到输出点的坐标；将解码器隐藏状态经过线性变化映射到3维，每一维代表一类即可预测输出点的类别。

6.如权利要求1所述基于循环神经网络的汉字骨架的自动合成方法，其特征是，FontRNN模型的训练阶段包括如下操作：

21)使用批大小为128的Adam优化算法，并进行梯度不大于1.0的裁剪；初始学习率为0.001，并按照0.0001的衰减率在每次训练迭代后对学习率进行衰减；

22)使用保持概率为0.6的丢弃策略和数据增强策略，避免神经网络的过拟合；将数据点的相对坐标(Δx,Δy)乘以位于0.90和1.10之间的一个随机数，并按照0.1的几率随机丢弃数据点；

23)将参考字骨架和对应的目标字骨架输入到FontRNN模型，训练合成目标字骨架；具体执行如下操作：

231)参考字骨架用点序列[R₁,R₂,…,R_L]表示，其中L是该骨架的实际点数；由双向循环神经网络构成的编码器将参考字骨架作为输入，并输出循环神经网络的所有隐藏状态

232)以编码器的输出

和解码器当前时间步隐藏状态h_i为单调注意力模块的输入；

233)根据单调注意机制计算得到上下文向量c_i；

234)向解码器输入上一个时间步的上下文向量c_i-1和目标输入T_i-1，在训练阶段获得当前解码器隐藏状态h_i；

235)将h_i和c_i拼接起来，经过二维高斯混合模型和分类模型，得到目标骨架当前时刻的输出T′_i。

7.如权利要求1所述基于循环神经网络的汉字骨架的自动合成方法，其特征是，第三步利用训练好的FontRNN模型进行新的汉字骨架合成，自动合成输入到网络中的参考字骨架对应的带有预训练目标字相同风格的目标字骨架。

8.一种大规模中文字库的自动生成方法，其特征是，利用权利要求1～7任一项所述基于循环神经网络的汉字骨架的自动合成方法，得到整个汉字集合的带有目标风格的汉字骨架；再使用一个外轮廓恢复模型来学习恢复汉字骨架的外轮廓；

所述外轮廓恢复模型包括两个包含U-net连接的编解码器结构；第一个编解码器用于恢复骨架的外轮廓形状；第二个编解码器用于提取骨架，即采用循环优化的方式使合成的外轮廓更加逼真；

利用训练好的外轮廓恢复模型，通过恢复目标字骨架的外轮廓，得到整个汉字集合的带有目标风格的汉字图片，由此生成大规模中文字库。

9.如权利要求8所述大规模中文字库的自动生成方法，其特征是，具体从国标GB 2312共6763个汉字中选取包含775个参考字的骨架和目标字的骨架样本及对应的汉字外轮廓样本来训练所述外轮廓恢复模型，得到训练好的外轮廓恢复模型。

10.如权利要求8所述大规模中文字库的自动生成方法，其特征是，所述目标风格包括骨架和轮廓。