CN111666950A

CN111666950A - 一种基于流模型的字体家族生成方法

Info

Publication number: CN111666950A
Application number: CN202010552157.0A
Authority: CN
Inventors: 王存睿; 丁阳
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-15

Abstract

一种基于流模型的字体家族生成方法，包括以下步骤：S1、字体数据集预处理；S2、构建字体家族生成模型；S3、模型训练；S4、家族字体生成。本发明基于流的生成模型，在图像编码得到的潜在向量精确推断上得到了很好的效果；该方法在原始字体转换上由于模型的可逆性生成字体图像的相似度非常高。在通过插值生成的常规字体图像与真实字体图像相比较时也具有较高的相似度；本发明通过插值后可以得到由细体到粗体转换的中间过渡家族字体图像。通过这种方法可以极大减轻设计师的负担，减少了设计的周期时间，帮助设计师解决大量重复性工作的问题，提升效率。

Description

一种基于流模型的字体家族生成方法

技术领域

本发明涉及流计算模型技术领域，尤其是一种基于流模型的字体家族生成方法。

背景技术

字体家族是为了排版而诞生的产物，在排版中版面有大标、副标、内文、强调、引用、批注等等不同区块。而这些文字的样貌各自要有区隔、体现出层级，才能方便阅读。在字体家族的设计上都会尽量要求一致，排版起来才能和谐。由于在字体家族设计时需要对细(light)、常规(regular/roman)、粗(bold)等进行不同的设计，要完成一套庞大的字体家族设计需要耗费大量的人力和时间，这导致字体家族没有得到普及性的应用。由于字体家族不能通过端到端的方式进行生成，拟通过对字体家族中不同的两种字体图像的编码进行插值，从而获得过渡字体家族图像。

随着深度神经网络的发展，生成模型也得到了巨大的飞跃。目前已有的生成模型除了流模型外包括GAN、VAE和Autoregressive Model(自回归模型)三大类生成模型。其中自回归模型和VAE是基于似然的方法，GAN则是通过缩小样本和生成之间的分布实现数据的生成。基于流的生成模型，直接寻找原始分布到特定分布的转换的求逆，从而给定特定分布能输出多样的生成分布。在图像编码得到的潜在向量精确推断上得到了很好的效果。

对于上述方法的实现，使得设计师的负担大大增加，设计的周期时间较长。上述网络在生成过程中也做了一些重复的工作，效率大大降低，不能直接生成过渡自然的字体样本，由于过渡自然的字体样本可直接视为家族字体，故上述方法存在许多不足，这也使得设计师对于时间的投入成本大大增加。

发明内容

本发明的目的是提供一种可输出多样的生成分布，生成字体图像的相似度高，有效减少设计周期、提升效率的基于流模型的字体家族生成方法。

本发明解决现有技术问题所采用的技术方案：一种基于流模型的字体家族生成方法，包括以下步骤：

S1、字体数据集预处理：采集兰亭字体作为字符集，并将字符集通过字体文件输出字体图像作为字体数据集，对字体数据集中的每幅字体图像进行归一化处理，使每幅字体图像的像素矩阵中的灰度值映射至0-1范围内得到预处理数据集，在所述预处理数据集中选取预设数量的字体图像作为训练字体数据集；

S2、构建字体家族生成模型：所述字体家族生成模型包括输入层、encoder层以及输出层，并在输出层含有损失函数；包括以下步骤：

S21、输入层构建：

当输入层为离散数据时，设输入层x为具有未知真实分布x～P^*(x)的高维随机向量；数据集D服从独立同分布，并选择带参数θ的模型p_θ(x)；当x为离散数据向量时，对数似然目标等效于最小化以下目标公式：

L(D)表示预处理数据集D的高阶无穷小，x为字体图像，x⁽ⁱ⁾为D中的第i个字体图像，N为D中包含的字体图像的数量；

当输入层x为连续数据向量时，最小化以下目标公式:

其中

u～U(0,a),其中a为数据的离散化水平参数,c＝-M·loga,M是x的维数；

为x⁽ⁱ⁾的离散值，u是属于(0-a)中的一个随机数；

S22、基于流的生成模型构建：通过使用随机梯度下降方法进行优化；在基于流的生成模型中，生成过程定义为：

z～p_θ(z)

X＝g_θ(z)

其中z是潜变量，函数g_θ(z)是可逆的，也称为双射的，使得给定数据点x，潜在变量由z＝f_θ(z)＝g_θ ^-1(x)推断所得；其中函f和g由一系列变换组成：这样x和z之间的关系记为可逆转换序列：

S23、构建模型的极大似然公式为：

logp_θ(X)＝logp_θ(z)+log|det(df(x)/dx))|

定义

和

标量值log|det(dh_i/dh_i-1)|是雅克比矩阵dh_i/dh_i-1的行列式的绝对值的对数，该值是在转换f_i下从h_i-1到h_i的对数密度变化；对于log|det(dh_i/dh_i-1)|采用三角矩阵的变换:

log|det(dh_i/dh_i-1)|＝sum(log|diag(dh_i/dh_i-1))

其中,sum()取所有向量元素的总和，log()采用元素对数，diag()采用雅可比矩阵的对角线；

将训练字体数据集中的字体图像输入模型的极大似然公式中，极大似然公式作为一个精准的编码器，log p_θ(z)就是一个满足均值为0，方差为1的高斯分布；在模型训练完成后，由log p_θ(X)生成一个字体图像log p_θ(z)：

log p_θ(x)+log|det(df(x)/dx))|^-1＝log p_θ(z)

log p_θ(x)+log|det(dg(z)/dz))|^-1＝log p_θ(z)；

S24、采用随机采样z＝men+e^logstd×eps_sample，eps_sample取值为[0.0，1.00],这里的是一个N(0,1)的采样，将正向传播时的输出端作为输入端，就可以从原来的输入端得到输出的图像结果；

S3、模型训练：将步骤S1的预处理字体数据集输入到字体家族生成模型中，对模型进行训练；训练方法包括以下步骤：

S31、将预处理数据集和噪声矩阵一起输入到字体家族生成模型中；所述噪声矩阵为一个正态分布均值为0，方差为0.01的1xSamLnNum的随机数矩阵；

S32、设置字体家族生成模型encoder层的数量及encoder层中revnet部分的数量；使所述字体家族生成模型的encoder层经过1200次迭代之后，由输出层得到字体图像；

S34、最终使用“输出的平均平方和”作为损失函数对模型进行训练；

S4、在预处理数据集中选取粗细不同的两幅字体图像的极大似然公式中进行编码时对两幅图像的编码进行十次插值，插值后得到由细体到粗体转换的中间过渡图像，所得中间过渡图像即为家族字体。

所述归一化处理的方法为：利用int_to_float函数将每幅汉字图片的像素矩阵的灰度值由0-255转化为0-1范围。

encoder为多尺度结构。

所述encoder模块的数量为4，encoder模块中revnet部分数量为16。

步骤S1中预设数量为9000个汉字。

本发明的有益效果在于：

1、本发明基于流的生成模型，直接寻找原始分布到特定分布的转换的求逆，从而给定特定分布能输出多样的生成分布，在图像编码得到的潜在向量精确推断上得到了很好的效果；

2、该方法在原始字体转换上由于模型的可逆性生成字体图像的相似度非常高。在通过插值生成的常规字体图像与真实字体图像相比较时也具有较高的相似度；

3、本发明通过插值后可以得到由细体到粗体转换的中间过渡家族字体图像。通过这种方法可以极大减轻设计师的负担，减少了设计的周期时间，帮助设计师解决大量重复性工作的问题，提升效率。

附图说明

图1是本发明的基本流程图。

图2是本发明中家族字体生成模型结构图；

图3是本发明的生成模型结构中的encoder层结构图；

图4是本发明的模型结构中的多尺度结构图；

图5是本发明插值后生成的字体图像。

具体实施方式

以下结合附图及具体实施方式对本发明进行说明：

如图1所示，本发明包括四个步骤：一种基于流模型的字体家族生成方法，包括以下步骤：

S1、字体数据集预处理：采集兰亭字体作为字符集，并将字符集通过字体文件输出字体图像作为字体数据集；为消除奇异数据集导致的不良影响，对字体数据集中的每幅字体图像进行归一化处理，即利用int_to_float函数将每幅汉字图片的像素矩阵的灰度值由0-255转化为0-1范围从而得到预处理数据集。

由于图像是有限个像素组成的而每个像素的取值也是离散的、有限的，因此图像是一个离散分布。为了拟合离散分布在训练过程中需要用到大量的训练数据，故选用兰亭字体作为实验所用字体进行字体数据集的创建。采集时，优选将兰亭字体中抽取常用的九千字作为字符集。

S21、输入层构建：

当输入层x为连续数据向量时，最小化以下目标公式:

其中

为x⁽ⁱ⁾的离散值，u是属于(0-a)中的一个随机数。

z～p_θ(z)

X＝g_θ(z)

其中z是潜变量，函数g_θ(z)是可逆的，也称为双射的，使得给定数据点x，潜在变量由z＝f_θ(z)＝g_θ ^-1(x)推断所得；其中函f和g由一系列变换组成：这样x和z之间的关系可以写成：：

这种可逆转换序列也称为(归一化)流；

S23、构建模型的极大似然公式为：

log p_θ(X)＝logp_θ(z)+log|det(df(x)/dx))|

模型构造的就是等号右边的这一项，将字体图像数据输入网络结构，此时就将其看作一个精准的编码器。定义

和

log|det(dh_i/dh_i-1)|＝sum(log|diag(dh_i/dh_i-1))

其中sum()取所有向量元素的总和，log()采用元素对数，diag()采用雅可比矩阵的对角线；

将训练字体数据集中的字体图像输入模型的极大似然公式中，极大似然公式作为一个精准的编码器，log p_θ(z)就是一个满足均值为0，方差为1的高斯分布也是作为先验分布。在模型训练完成后，可从先验分布采样由log p_θ(X)生成一个字体图像log p_θ(z)：

log p_θ(x)+log|det(df(x)/dx))|^-1＝log p_θ(z)

log p_θ(x)+log|det(dg(z)/dz))|^-1＝log p_θ(z)

S24、采用随机采样z＝men+e^logstd×eps_sample，eps_sample取值为[0.0，1.00]这里的是一个N(0,1)的采样，将正向传播时的输出端作为输入端，就可以从原来的输入端得到输出的图像结果；

S31、将预处理数据集和噪声矩阵一起输入到字体家族生成模型中；其中，加入噪声矩阵的目的是为了使输出更光滑从而提升网络的推理能力，提升泛化能力，使线条更光滑。噪声矩阵为一个正态分布均值为0，方差为0.01的1xSamLnNum的随机数矩阵；

S32、设置字体家族生成模型encoder层的数量为4及encoder层中revnet部分的数量为16；使字体家族生成模型的encoder层经过1200次迭代之后，由输出层得到字体图像。

S34、最终使用“输出的平均平方和”作为损失函数对模型进行训练。字体家族生成模型采用基于流的生成模型，x_in为字体图像，为了消除奇异样本数据导致的不良影响，首先对输入的图像进行归一化处理，将归一化处理后的数据加入一定量的噪声，然后输入到一个encoder中，最终用“输出的平均平方和”作为损失函数。。

参照图2，字体家族生成模型采用基于流的生成模型，x_in为字体图像，为了消除奇异样本数据导致的不良影响，首先对输入的图像进行归一化处理，将归一化处理后的数据加入噪声矩阵，然后输入到一个encoder中，最终用“输出的平均平方和”作为损失函数。

参照图3，它是对图2中的encoder部分进行分解，encoder由L个模块组成，每个模块的作用是对输入进行运算，然后将输出对半分为两份，一部分传入下一个模块，一部分直接输出。这就是多尺度结构。

参照图4，它为多尺度具体结构，原始输入经过第一步仿射耦合层的复合运算后，所得的输出与输入的大小相同，这时候将输入沿着通道轴对半分为z₁和z₂，其中z₁直接输出，而只将z₂送入到下一步运算，后面的依此类推。

进一步的，如图中的特例，最终的输出由z₁,z₃,z₅组成，总大小与输入大小相同。每一步的多尺度操作直接将数据尺寸减少到原来的一半。多尺度结构相采用了一个组合式的条件分布。其条件概率公式如下：

p(z₁,z₃,z₅)＝p(z₁|z₃,z₅)p(z₃|z₅)p(z₅)

进一步的，由于z₃,z₅是由z₂完全决定的，z₅也是由z₄完全决定的，因此条件部分可以改为：

p(z₁,z₃,z₅)＝p(z₁|z₂)p(z₃|z₄)p(z₅)

进一步的，假设右端三个概率分布都是正态分布，其中p(z₁|z₂)的均值方差由z₂通过过卷积运算得出，p(z₃|z₄)的均值方差由z₄计算得来，p(z₅)的均值方差通过直接学习得出。显然这样的假设会比简单认为它们都是标准正态分布要有效得多。由于flow模型的可逆性，输入输出维度一样，事实上这会存在非常严重的维度浪费问题，这往往要求我们需要用足够复杂的网络去缓解这个维度浪费。

进一步的，假设原来图像为h*w*c大小，前两个轴是空间维度，然后沿着空间维度分为一系列2*2*c的块，然后将每个块直接reshape为1*1*4c，也就是说最后变成了h＝2_w＝2_4c。通过squeeze操作，可以增加通道轴的维数，但依然保留局部相关性。

h/2×w/2×4c

现在来进一步拆解encoder，在输入之前进行尺度变换，然后打乱轴并进行分割，接着输入到耦合层中。如此训练K次，这里的K称为“深度”。其中actnorm和仿射耦合层会导致出现非1的雅可比行列式，为避免非1的雅可比行列式出现，需要在损失函数中加入

的这一项。

encoder中的定义的split2d不是简单的分割，而是混合了对分割后的变换运算。在基于流的生成模型中采用Actnorm层代替BN层进行缩放平移变换，其中μ与σ都是训练参数，在训练时采用初始的batch的均值和方差去初始化μ与σ这两个参数。

revnet部分中的Coupling层使用三层relu卷积，其中最后一层使用零初始化，这样就使得初始状态下输入输出一样，即初始状态为一个恒等变换，这有利于训练深层网络。可逆1*1卷积源于对置换操作的一般化。可逆1*1卷积替换该固定置换，其中权重矩阵被初始化为随机旋转矩阵。具有c*c权重矩阵W的h*w*c张量h的可逆1*1卷积的对数行列式很容易计算:

计算det(W)的成本是o(c³),其通常计算conv2D(h；W)即o(h·w·c²)的复杂度相当。将权重W初始化为随机旋转矩阵，其对数行列式为0，通过在LU分解中直接参数化W，可以将计算det(W)的成本从o(c³)减少到o(c)：

W＝PL(U+diag(s))

其中P是置换矩阵，L是下三角矩阵，对角线上有一个，U是对角线上有零的上三角矩阵，s是矢量。那么对数决定因素就是：

log|det(W)|＝sum(log|s|)

在该参数化中，我们通过首先对随机旋转矩阵W进行采样来初始化参数，先随机生成一个正交矩阵，然后做LU分解，得到P,L,U，固定P，同时固定U的对角线的正负号，然后约束L为对角线全1的下三角阵，U为上三角阵，优化训练L,U的其余参数。

重新将模型的极大似然公式整理称如下：

logp_θ(x)＝logp_θ(z)+log|det(df(x)/dx))|

模型构造的就是等号右边的这一项，将字体图像数据输入网络结构，此时就将其看作一个精准的编码器，log p(z)就是一个满足均值为0，方差为1的高斯分布，也是作为先验分布。在模型训练完成后，可从先验分布采样生成一个字体图像：

logp_θ(x)+log|det(df(x)/dx))|^-1＝logp_θ(z)

然后采用随机采样z＝mean+e^logstd×eps_sample,eps_sample取值为[0:0；1:00],这里的z是一个N(0,1)的采样，我们将正向传播时的输出端作为输入端，就可以从原来的输入端得到输出的图像结果。

参照图5，经过1200次迭代后，已经能够生成较为清晰的字体图像，即模型已经求解出原始分布到特定分布的转换。模型通过对原始特征进行编码时，输出的编码特征的各个维度是解耦的，由于每个维度的独立性，我们可以对两幅图像的编码进行插值。如图所示，对两幅图像的编码进行十次插值，通过插值后可以得到由细体到粗体转换的中间过渡图像，所得到的字体样本就可视为家族字体。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。