CN111161266A

CN111161266A - 一种基于矢量量化的变分自编码机的多风格字体生成方法

Info

Publication number: CN111161266A
Application number: CN201911241906.1A
Authority: CN
Inventors: 张九龙; 温昕燃; 屈晓娥
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-15
Anticipated expiration: 2039-12-06
Also published as: CN111161266B

Abstract

本发明公开了一种基于矢量量化的变分自编码机的多风格字体生成方法，建立固定字体风格的汉字图片的取样样本；根据取样样本，通过调试过的固定尺寸的框和步长依次对取样样本的字符进行切割，经调试后的框内只包括一个字，将框内的数据读取出来，转成图片保存，即切割出单个字体的图像，切割后随机选取图像作为需要扩充的风格字体的数据集，作为最终训练数据；将得到的最终训练数据输入网络结构进行迭代和训练，并将网络输出得到的损失值输入优化器来更新编码器权重和解码器权重，以及量化隐向量的参数值；将单个训练样本和待扩展的汉字数据样本带入经更新的编码器和解码器中进行重构，得到进行风格扩充后的字体样本。

Description

一种基于矢量量化的变分自编码机的多风格字体生成方法

技术领域

本发明属于图像处理与人工智能深度学习技术领域，涉及一种基于矢量量化的变分自编码机的多风格字体生成方法。

背景技术

文字作为信息的载体，不仅传达了人们想要表达的内容，文字的样式作为一种艺术形式也逐渐被人们开发起来。在海报设计，标语设计等方面，使用合适的字体在阅读时更能吸引读者的注意力，也极大的提高了文字整体的美观度。现已有的一些办公软件和图片处理软件已经内置了很多常用的风格字体，网络上也有很多个人或企业设计的其他样式的字体。但部分风格字体的字库在设计时没有囊括一些不常用的汉字，而使用者会因此产生字体风格样式不统一的情况，影响了设计的美观度。不同风格字体字库在设计时需要设计师来设计主体的风格，从而扩展到其他文字，但为了使字库囊括所有的汉字，又会增加设计师的工作量，消耗更多的人力与物力。

鉴于以上种种原因，如何在现有风格字体字库的基础上对字库中不包含的汉字进行风格扩充，同时保证扩充时风格的准确性，成为当下需要解决的一个问题。

发明内容

本发明的目的是提供一种基于矢量量化的变分自编码机的多风格字体生成方法，解决了现有技术中存在的风格字体字库中的部分非常用汉字不具备相同风格，设计其他风格字体字库时费时费力的问题。

本发明所采用的技术方案是，一种基于矢量量化的变分自编码机的多风格字体生成方法，包括以下步骤：

步骤1、建立固定字体风格的汉字图片的取样样本；

步骤2、根据步骤1中的取样样本，通过调试过的固定尺寸的框和步长依次对取样样本的字符进行切割，经调试后的框内只包括一个字，将框内的数据读取出来，转成图片保存，即切割出单个字体的图像，切割后随机选取图像作为需要扩充的风格字体的数据集，作为最终训练数据；

步骤3、将步骤2中得到的最终训练数据输入网络结构进行迭代和训练，并将网络输出得到的损失值输入优化器来更新编码器权重和解码器权重，以及量化隐向量的参数值；

步骤4、将单个训练样本和待扩展的汉字数据样本带入经步骤3更新的编码器和解码器中进行重构，得到进行风格扩充后的字体样本。

本发明的特点还在于：

步骤1和步骤2的具体过程为：

步骤1、首先在Word文档中输入m页固定字体风格的汉字，每个汉字之间插入空格；然后将该Word文档转成pdf格式；最后将pdf格式转成jpg格式图片，最终将得到m张图片，即为取样样本；

步骤2、对步骤1取样样本中的m张图片，通过调试过的固定尺寸的框和步长依次对每张图片的字符随机切割出i张、大小为c×r的图片，即得到m×i张、大小为c×r的图片，得到最终训练数据。

步骤3的具体过程为：

步骤3.1、选取步骤2中任意一个字体风格的图像style_img，输入到编码器E，字体风格图像style_img经过编码器网络的底层计算，得到该图像的底层特征图h_bottom＝E_bottom(style_img)，代表输入图像的结构信息；再将底层特征图经过编码器网络的上层计算，得到该图像的上层特征图h_top＝E_top(h_bottom)，代表该输入图像的细节信息；

步骤3.2、将步骤3.1得到的上层特征图h_top根据公式(1)进行矢量量化，得到上层特征图对应的隐空间向量e_top；

其中，E(x)表示解码器的输出；e_j是服从某一分布的随机向量，表示隐变量，Quantize()代表量化的函数，e_k代表量化后得到对应的隐空间的向量，k代表下标，argmin代表取(E(x)-ej)所有值中最小值对应的向量下标；

步骤3.3、将步骤3.2中得到的e_top经过解码器上层网络D_top，再将输出和底层特征图h_bottom合并输入到矢量量化模块，得到底层特征图对应的隐空间向量e_bottom；

步骤3.4、将步骤3.2、步骤3.3中通过矢量量化得到的对应隐空间向量e_top、e_bottom输入到底层解码器D_bottom中进行重构，输出重构后的图像generated_img；

步骤3.5、通过网络损失函数计算出变分自编码机中整个网络的损失，使用Adam梯度下降方法来更新编码器网络、解码器网络和矢量量化网络中的权重Adam(w，Loss_w，α)，其中α表示梯度下降的学习率且α＝0.0003，Loss_w表示整个网络的损失，w表示整个网络中的权重；当解码器网络输入e后输出的结果D(e)≈输入图像x时，则generated_img≈style_img，得到的整个网络中的权重w具有了训练数据中字体对应的风格特征，训练完成。

步骤3.1的具体过程为：

选取步骤2中任意一个字体风格的图像style_img，输入到编码器E，字体风格图像style_img先经过编码器网络的三个后接relu模块的卷积模块和两个RB模块，然后经过一个卷积模块和一个Tanh模块，得到图像的底层特征h_bottom＝E_bottom(style_img)，代表图像的结构信息；再将底层特征通过两个后接relu模块的卷积模块和两个RB模块，最后通过一个卷积模块和一个Tanh模块，得到图像的上层特征h_top＝E_top(style_img)，代表图像的细节信息。

步骤3.2的具体过程为：

根据公式(2)计算输入的步骤3.1得到的上层特征图h_top和由初始化的e_j构成的隐变量矩阵w_quantize的欧式距离，取各距离最小的e_j在隐变量矩阵w_quantize中的位置，表示与输入特征图的每个通道中各个像素点最接近的隐变量e_j的位置信息，再根据计算得到的位置信息找到隐变量矩阵中对应的向量，构成矢量量化后的结果e_top：

其中dist(X，Y)表示欧式距离，x_i、y_i表示隐变量矩阵中的元素，n表示个数。

步骤3.3的具体过程为：

将步骤3.2中得到的e_top先经过解码器的一个卷积模块和一个relu模块，再通过两个RB模块，然后经过一个反卷积模块和一个Tanh模块，输出上层特征经过重构后的结果decoder_top，再将decoder_top和底层特征图h_bottom通过公式(1)进行矢量量化，得到底层特征对应的隐空间向量e_bottom。

步骤3.4的具体过程为：

将e_top和e_bottom合并后通过一个卷积模块和relu模块，再经过2个RB模块，然后经过一个反卷积模块和一个relu模块，最后经过一个反卷积模块，输出一张与输入图像一样大小的图像generated_img。

步骤3.5中变分自编码机的网络损失函数为公式(3)：

其中，

是网络整体的损失函数，E(x)表示图像x输入编码器之后的结果，代表该图像的顶层和底层的特征；e表示的是输入图像的特征图的隐向量，D(e)表示解码器网络输入e后输出的结果，代表着重构的图像；sg代表着停止梯度的操作，为了阻止梯度反向传播到该模块；β为常数且β＝0.25，L₂表示欧氏距离，w表示编码器网络、解码器网络和矢量量化中的权重。

步骤4的具体过程为：

步骤4.1、取和训练数据大小、风格相同的图像作为style_img，以及和训练数据同大小的待风格化的字体图像作为配对的图像label_img；

步骤4.2、将所述步骤4.1中的style_img输入到编码器的上层网络E_top，得到风格字体的细节特征h_top；再将所述步骤4.1中的label_img输入到编码器的底层网络E_bottom，得到待风格化字体的结构特征h_bottom；通过矢量量化后，输入到解码器进行重构，即得到风格化后的字体图片generated_img。

本发明的有益效果是：

(1)本发明多风格字体图像生成方法主要是基于变分自动编码机网络和人工数据集进行训练和图像生成，能够对字体图像进行多种风格的字体图像生成；

(2)本发明多风格字体图像生成方法，能够使字体字库中缺失该风格的字体进行风格化生成，对风格字体的字库进行扩充，为后续该文字的应用提供了一个很好的预处理操作；

(3)本发明多风格字体图像生成方法对于一些风格字库中不具有该风格的字体，能够有效地对其实现风格化的生成，在文字字库数字化的过程中提供一个自动生成的操作，扩充风格字体字库；同时可以有效地减少设计人员在设计风格字库时耗费的人力物力，有很好的使用价值。

附图说明

图1是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中训练的框架流程图；

图2是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法的详细过程图；

图3是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中编码器网络结构图；

图4是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中编码器网络结构内残差模块(RB)网络结构图；

图5是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中解码器网络结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于矢量量化的变分自编码机的多风格字体生成方法，如图1和2所示，包括以下步骤：

步骤1、建立固定字体风格的汉字图片的取样样本；

其中步骤1和步骤2的具体过程为：

步骤3的具体过程为：

步骤3.1的具体过程为：

如图3所示，在编码器网络结构图中：Conv，32，k4，s2表示卷积操作，卷积核为32个、卷积核大小为4x4、步长s设置为1；ReLU表示一个非线性激活函数；Conv，64，k4，s2表示卷积操作，卷积核为64个、卷积核大小为4x4、步长s设置为2；Conv，128，k3，s1表示卷积操作，卷积核为128个、卷积核大小为3x3、步长s设置为1；Conv，64，k1，s1表示卷积操作，卷积核为64个、卷积核大小为1x1、步长s设置为1；Tanh表示一个非线性激活函数。

如图4所示为RB1…RB8中任意一个RB网络结构图。其中，Conv1～Conv2分别表示2个卷积操作，Conv1，64，k3，s1表示卷积操作，卷积核为64个、卷积核大小为3x3、步长s设置为1；Conv2，128，k1，s1表示卷积操作，卷积核为128个、卷积核大小为1x1、步长s设置为1；ReLU表示一个非线性激活函数；以下公式表示残差模块的过程：

H(x)＝F(x)+x

公式中，x表示残差模块的输入，H(x)表示残差模块的输出，F(x)代表着残差，通过变换可以得到：

F(x)＝H(x)-x

从而变成神经网络去拟合输入与输出之间的残差，本发明网络结构中使用了残差模块，为了使网络的效果不受其层数的影响。

步骤3.2的具体过程为：

步骤3.3的具体过程为：

将步骤3.2中得到的e_top先经过解码器的一个卷积模块和一个relu模块，再通过两个RB模块，然后经过一个反卷积模块和一个Tanh模块，输出上层特征经过重构后的结果decoder_top，再将decoder_top和底层特征图h_bottom通过公式(1)进行矢量量化，得到底层特征对应的隐空间向量e_bottom；

如图5(a)所示，在解码器上层的网络结构图中：Conv，128，k3，s1表示卷积操作，卷积核为128个、卷积核大小为3x3、步长s设置为1；Conv，64，k3，s1/2表示反卷积操作，卷积核为64个、卷积核大小为3x3、步长s设置为1/2；Tanh和ReLU分别表示一个非线性激活函数，RB表示一个残差模块。

步骤3.4的具体过程为：

将e_top和e_bottom合并后通过一个卷积模块和relu模块，再经过2个RB模块，然后经过一个反卷积模块和一个relu模块，最后经过一个反卷积模块，输出一张与输入图像一样大小的图像generated_img；

如图5(b)所示，在解码器底层的网络结构图中：Conv，128，k3，s1表示卷积操作，卷积核为128个、卷积核大小为3x3、步长s设置为1；Conv，64，k3，s1/2表示反卷积操作，卷积核为64个、卷积核大小为3x3、步长s设置为1/2；Conv，3，k4，s1/2表示反卷积操作，卷积核为3个、卷积核大小为4x4、步长s设置为1/2；ReLU表示一个非线性激活函数；RB表示一个残差模块；底层网络输入之后，输出得到generated_img，即重构之后的图像。

步骤3.5、通过网络损失函数计算出变分自编码机中整个网络的损失，其中变分自编码机的网络损失函数为公式(3)：

其中，

是网络整体的损失函数，E(x)表示图像x输入编码器之后的结果，代表该图像的顶层和底层的特征；e表示的是输入图像的特征图的隐向量，D(e)表示解码器网络输入e后输出的结果，代表着重构的图像；sg代表着停止梯度的操作，为了阻止梯度反向传播到该模块；β为常数且β＝0.25，L₂表示欧氏距离，w表示编码器网络、解码器网络和矢量量化中的权重；网络整体的损失函数可以看成三个部分：第一部分是重构损失，用来更新编码器和解码器；第二部分是对于隐空间向量的损失，用来更新隐空间向量的值；第三部分是一个承诺损失，促使编码器的输出保持接近其所选择的隐空间向量，从而方式输出频繁的从一个隐空间向量波动到另一个；

使用Adam梯度下降方法来更新编码器网络、解码器网络和矢量量化网络中的权重Adam(w，Loss_w，α)，其中α表示梯度下降的学习率且α＝0.0003，Loss_w表示整个网络的损失，w表示整个网络中的权重；当解码器网络输入e后输出的结果D(e)≈输入图像x时，则generated_img≈style_img，得到的整个网络中的权重w具有了训练数据中字体对应的风格特征，训练完成。

步骤4的具体过程为：

最终训练数据训练完成后，得到更新的网络权重，最后将和训练样本同风格和待扩展风格的字体图像作为图像对输入网络，得到风格化扩展后的字体图像。

本发明一种基于矢量量化的变分自编码机的多风格字体生成方法，其优点在于：本发明对于风格字库中由于设计不完全或未被考虑的少量不常用的未被风格化的汉字，能够有效地对其进行对应的多风格生成，对于风格字库提供一个自动扩充字库的操作；同时可以有效地减少设计人员在设计不同风格字库时耗费的人力物力，有很好的使用价值。

Claims

1.一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，包括以下步骤：

步骤1、建立固定字体风格的汉字图片的取样样本；

2.根据权利要求1所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤1和步骤2的具体过程为：

3.根据权利要求1所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤3的具体过程为：

步骤3.5、通过网络损失函数计算出变分自编码机中整个网络的损失，使用Adam梯度下降方法来更新编码器网络、解码器网络和矢量量化网络中的权重Adam(w，Loss_w，α)，其中α表示梯度下降的学习率且α＝0.003，Loss_w表示整个网络的损失，w表示整个网络中的权重；当解码器网络输入e后输出的结果D(e)≈输入图像x时，则generated_img≈style_img，得到的整个网络中的权重w具有了训练数据中字体对应的风格特征，训练完成。

4.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤3.1的具体过程为：

5.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤3.2的具体过程为：

6.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤3.3的具体过程为：

7.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤3.4的具体过程为：

8.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤3.5中变分自编码机的网络损失函数为公式(3)：

其中，

)是网络整体的损失函数，E(x)表示图像x输入编码器之后的结果，代表该图像的顶层和底层的特征；e表示的是输入图像的特征图的隐向量，D(e)表示解码器网络输入e后输出的结果，代表着重构的图像；sg代表着停止梯度的操作，为了阻止梯度反向传播到该模块；β为常数且β＝0.25，L₂表示欧氏距离，w表示编码器网络、解码器网络和矢量量化中的权重。

9.根据权利要求1所述的一种基于矢量量化的变分自编码机的多风格字体生成方法，其特征在于，所述步骤4的具体过程为：