CN111666950A - 一种基于流模型的字体家族生成方法 - Google Patents

一种基于流模型的字体家族生成方法 Download PDF

Info

Publication number
CN111666950A
CN111666950A CN202010552157.0A CN202010552157A CN111666950A CN 111666950 A CN111666950 A CN 111666950A CN 202010552157 A CN202010552157 A CN 202010552157A CN 111666950 A CN111666950 A CN 111666950A
Authority
CN
China
Prior art keywords
font
log
model
image
family
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010552157.0A
Other languages
English (en)
Inventor
王存睿
丁阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202010552157.0A priority Critical patent/CN111666950A/zh
Publication of CN111666950A publication Critical patent/CN111666950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

一种基于流模型的字体家族生成方法,包括以下步骤:S1、字体数据集预处理;S2、构建字体家族生成模型;S3、模型训练;S4、家族字体生成。本发明基于流的生成模型,在图像编码得到的潜在向量精确推断上得到了很好的效果;该方法在原始字体转换上由于模型的可逆性生成字体图像的相似度非常高。在通过插值生成的常规字体图像与真实字体图像相比较时也具有较高的相似度;本发明通过插值后可以得到由细体到粗体转换的中间过渡家族字体图像。通过这种方法可以极大减轻设计师的负担,减少了设计的周期时间,帮助设计师解决大量重复性工作的问题,提升效率。

Description

一种基于流模型的字体家族生成方法
技术领域
本发明涉及流计算模型技术领域,尤其是一种基于流模型的字体家族生成方法。
背景技术
字体家族是为了排版而诞生的产物,在排版中版面有大标、副标、内文、强调、引用、批注等等不同区块。而这些文字的样貌各自要有区隔、体现出层级,才能方便阅读。在字体家族的设计上都会尽量要求一致,排版起来才能和谐。由于在字体家族设计时需要对细(light)、常规(regular/roman)、粗(bold)等进行不同的设计,要完成一套庞大的字体家族设计需要耗费大量的人力和时间,这导致字体家族没有得到普及性的应用。由于字体家族不能通过端到端的方式进行生成,拟通过对字体家族中不同的两种字体图像的编码进行插值,从而获得过渡字体家族图像。
随着深度神经网络的发展,生成模型也得到了巨大的飞跃。目前已有的生成模型除了流模型外包括GAN、VAE和Autoregressive Model(自回归模型)三大类生成模型。其中自回归模型和VAE是基于似然的方法,GAN则是通过缩小样本和生成之间的分布实现数据的生成。基于流的生成模型,直接寻找原始分布到特定分布的转换的求逆,从而给定特定分布能输出多样的生成分布。在图像编码得到的潜在向量精确推断上得到了很好的效果。
对于上述方法的实现,使得设计师的负担大大增加,设计的周期时间较长。上述网络在生成过程中也做了一些重复的工作,效率大大降低,不能直接生成过渡自然的字体样本,由于过渡自然的字体样本可直接视为家族字体,故上述方法存在许多不足,这也使得设计师对于时间的投入成本大大增加。
发明内容
本发明的目的是提供一种可输出多样的生成分布,生成字体图像的相似度高,有效减少设计周期、提升效率的基于流模型的字体家族生成方法。
本发明解决现有技术问题所采用的技术方案:一种基于流模型的字体家族生成方法,包括以下步骤:
S1、字体数据集预处理:采集兰亭字体作为字符集,并将字符集通过字体文件输出字体图像作为字体数据集,对字体数据集中的每幅字体图像进行归一化处理,使每幅字体图像的像素矩阵中的灰度值映射至0-1范围内得到预处理数据集,在所述预处理数据集中选取预设数量的字体图像作为训练字体数据集;
S2、构建字体家族生成模型:所述字体家族生成模型包括输入层、encoder层以及输出层,并在输出层含有损失函数;包括以下步骤:
S21、输入层构建:
当输入层为离散数据时,设输入层x为具有未知真实分布x~P*(x)的高维随机向量;数据集D服从独立同分布,并选择带参数θ的模型pθ(x);当x为离散数据向量时,对数似然目标等效于最小化以下目标公式:
Figure BDA0002542948690000021
L(D)表示预处理数据集D的高阶无穷小,x为字体图像,x(i)为D中的第i个字体图像,N为D中包含的字体图像的数量;
当输入层x为连续数据向量时,最小化以下目标公式:
Figure BDA0002542948690000022
其中
Figure BDA0002542948690000031
u~U(0,a),其中a为数据的离散化水平参数,c=-M·loga,M是x的维数;
Figure BDA0002542948690000032
为x(i)的离散值,u是属于(0-a)中的一个随机数;
S22、基于流的生成模型构建:通过使用随机梯度下降方法进行优化;在基于流的生成模型中,生成过程定义为:
z~pθ(z)
X=gθ(z)
其中z是潜变量,函数gθ(z)是可逆的,也称为双射的,使得给定数据点x,潜在变量由z=fθ(z)=gθ -1(x)推断所得;其中函f和g由一系列变换组成:这样x和z之间的关系记为可逆转换序列:
Figure BDA0002542948690000033
S23、构建模型的极大似然公式为:
logpθ(X)=logpθ(z)+log|det(df(x)/dx))|
定义
Figure BDA0002542948690000034
Figure BDA0002542948690000035
标量值log|det(dhi/dhi-1)|是雅克比矩阵dhi/dhi-1的行列式的绝对值的对数,该值是在转换fi下从hi-1到hi的对数密度变化;对于log|det(dhi/dhi-1)|采用三角矩阵的变换:
log|det(dhi/dhi-1)|=sum(log|diag(dhi/dhi-1))
其中,sum()取所有向量元素的总和,log()采用元素对数,diag()采用雅可比矩阵的对角线;
将训练字体数据集中的字体图像输入模型的极大似然公式中,极大似然公式作为一个精准的编码器,log pθ(z)就是一个满足均值为0,方差为1的高斯分布;在模型训练完成后,由log pθ(X)生成一个字体图像log pθ(z):
log pθ(x)+log|det(df(x)/dx))|-1=log pθ(z)
log pθ(x)+log|det(dg(z)/dz))|-1=log pθ(z);
S24、采用随机采样z=men+elogstd×epssample,epssample取值为[0.0,1.00],这里的是一个N(0,1)的采样,将正向传播时的输出端作为输入端,就可以从原来的输入端得到输出的图像结果;
S3、模型训练:将步骤S1的预处理字体数据集输入到字体家族生成模型中,对模型进行训练;训练方法包括以下步骤:
S31、将预处理数据集和噪声矩阵一起输入到字体家族生成模型中;所述噪声矩阵为一个正态分布均值为0,方差为0.01的1xSamLnNum的随机数矩阵;
S32、设置字体家族生成模型encoder层的数量及encoder层中revnet部分的数量;使所述字体家族生成模型的encoder层经过1200次迭代之后,由输出层得到字体图像;
S34、最终使用“输出的平均平方和”作为损失函数对模型进行训练;
S4、在预处理数据集中选取粗细不同的两幅字体图像的极大似然公式中进行编码时对两幅图像的编码进行十次插值,插值后得到由细体到粗体转换的中间过渡图像,所得中间过渡图像即为家族字体。
所述归一化处理的方法为:利用int_to_float函数将每幅汉字图片的像素矩阵的灰度值由0-255转化为0-1范围。
encoder为多尺度结构。
所述encoder模块的数量为4,encoder模块中revnet部分数量为16。
步骤S1中预设数量为9000个汉字。
本发明的有益效果在于:
1、本发明基于流的生成模型,直接寻找原始分布到特定分布的转换的求逆,从而给定特定分布能输出多样的生成分布,在图像编码得到的潜在向量精确推断上得到了很好的效果;
2、该方法在原始字体转换上由于模型的可逆性生成字体图像的相似度非常高。在通过插值生成的常规字体图像与真实字体图像相比较时也具有较高的相似度;
3、本发明通过插值后可以得到由细体到粗体转换的中间过渡家族字体图像。通过这种方法可以极大减轻设计师的负担,减少了设计的周期时间,帮助设计师解决大量重复性工作的问题,提升效率。
附图说明
图1是本发明的基本流程图。
图2是本发明中家族字体生成模型结构图;
图3是本发明的生成模型结构中的encoder层结构图;
图4是本发明的模型结构中的多尺度结构图;
图5是本发明插值后生成的字体图像。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
如图1所示,本发明包括四个步骤:一种基于流模型的字体家族生成方法,包括以下步骤:
S1、字体数据集预处理:采集兰亭字体作为字符集,并将字符集通过字体文件输出字体图像作为字体数据集;为消除奇异数据集导致的不良影响,对字体数据集中的每幅字体图像进行归一化处理,即利用int_to_float函数将每幅汉字图片的像素矩阵的灰度值由0-255转化为0-1范围从而得到预处理数据集。
由于图像是有限个像素组成的而每个像素的取值也是离散的、有限的,因此图像是一个离散分布。为了拟合离散分布在训练过程中需要用到大量的训练数据,故选用兰亭字体作为实验所用字体进行字体数据集的创建。采集时,优选将兰亭字体中抽取常用的九千字作为字符集。
S2、构建字体家族生成模型:所述字体家族生成模型包括输入层、encoder层以及输出层,并在输出层含有损失函数;包括以下步骤:
S21、输入层构建:
当输入层为离散数据时,设输入层x为具有未知真实分布x~P*(x)的高维随机向量;数据集D服从独立同分布,并选择带参数θ的模型pθ(x);当x为离散数据向量时,对数似然目标等效于最小化以下目标公式:
Figure BDA0002542948690000061
L(D)表示预处理数据集D的高阶无穷小,x为字体图像,x(i)为D中的第i个字体图像,N为D中包含的字体图像的数量;
当输入层x为连续数据向量时,最小化以下目标公式:
Figure BDA0002542948690000062
其中
Figure BDA0002542948690000063
u~U(0,a),其中a为数据的离散化水平参数,c=-M·loga,M是x的维数;
Figure BDA0002542948690000064
为x(i)的离散值,u是属于(0-a)中的一个随机数。
S22、基于流的生成模型构建:通过使用随机梯度下降方法进行优化;在基于流的生成模型中,生成过程定义为:
z~pθ(z)
X=gθ(z)
其中z是潜变量,函数gθ(z)是可逆的,也称为双射的,使得给定数据点x,潜在变量由z=fθ(z)=gθ -1(x)推断所得;其中函f和g由一系列变换组成:这样x和z之间的关系可以写成::
Figure BDA0002542948690000071
这种可逆转换序列也称为(归一化)流;
S23、构建模型的极大似然公式为:
log pθ(X)=logpθ(z)+log|det(df(x)/dx))|
模型构造的就是等号右边的这一项,将字体图像数据输入网络结构,此时就将其看作一个精准的编码器。定义
Figure BDA0002542948690000072
Figure BDA0002542948690000073
标量值log|det(dhi/dhi-1)|是雅克比矩阵dhi/dhi-1的行列式的绝对值的对数,该值是在转换fi下从hi-1到hi的对数密度变化;对于log|det(dhi/dhi-1)|采用三角矩阵的变换:
log|det(dhi/dhi-1)|=sum(log|diag(dhi/dhi-1))
其中sum()取所有向量元素的总和,log()采用元素对数,diag()采用雅可比矩阵的对角线;
将训练字体数据集中的字体图像输入模型的极大似然公式中,极大似然公式作为一个精准的编码器,log pθ(z)就是一个满足均值为0,方差为1的高斯分布也是作为先验分布。在模型训练完成后,可从先验分布采样由log pθ(X)生成一个字体图像log pθ(z):
log pθ(x)+log|det(df(x)/dx))|-1=log pθ(z)
log pθ(x)+log|det(dg(z)/dz))|-1=log pθ(z)
S24、采用随机采样z=men+elogstd×epssample,epssample取值为[0.0,1.00]这里的是一个N(0,1)的采样,将正向传播时的输出端作为输入端,就可以从原来的输入端得到输出的图像结果;
S3、模型训练:将步骤S1的预处理字体数据集输入到字体家族生成模型中,对模型进行训练;训练方法包括以下步骤:
S31、将预处理数据集和噪声矩阵一起输入到字体家族生成模型中;其中,加入噪声矩阵的目的是为了使输出更光滑从而提升网络的推理能力,提升泛化能力,使线条更光滑。噪声矩阵为一个正态分布均值为0,方差为0.01的1xSamLnNum的随机数矩阵;
S32、设置字体家族生成模型encoder层的数量为4及encoder层中revnet部分的数量为16;使字体家族生成模型的encoder层经过1200次迭代之后,由输出层得到字体图像。
S34、最终使用“输出的平均平方和”作为损失函数对模型进行训练。字体家族生成模型采用基于流的生成模型,xin为字体图像,为了消除奇异样本数据导致的不良影响,首先对输入的图像进行归一化处理,将归一化处理后的数据加入一定量的噪声,然后输入到一个encoder中,最终用“输出的平均平方和”作为损失函数。。
S4、在预处理数据集中选取粗细不同的两幅字体图像的极大似然公式中进行编码时对两幅图像的编码进行十次插值,插值后得到由细体到粗体转换的中间过渡图像,所得中间过渡图像即为家族字体。
参照图2,字体家族生成模型采用基于流的生成模型,xin为字体图像,为了消除奇异样本数据导致的不良影响,首先对输入的图像进行归一化处理,将归一化处理后的数据加入噪声矩阵,然后输入到一个encoder中,最终用“输出的平均平方和”作为损失函数。
参照图3,它是对图2中的encoder部分进行分解,encoder由L个模块组成,每个模块的作用是对输入进行运算,然后将输出对半分为两份,一部分传入下一个模块,一部分直接输出。这就是多尺度结构。
参照图4,它为多尺度具体结构,原始输入经过第一步仿射耦合层的复合运算后,所得的输出与输入的大小相同,这时候将输入沿着通道轴对半分为z1和z2,其中z1直接输出,而只将z2送入到下一步运算,后面的依此类推。
进一步的,如图中的特例,最终的输出由z1,z3,z5组成,总大小与输入大小相同。每一步的多尺度操作直接将数据尺寸减少到原来的一半。多尺度结构相采用了一个组合式的条件分布。其条件概率公式如下:
p(z1,z3,z5)=p(z1|z3,z5)p(z3|z5)p(z5)
进一步的,由于z3,z5是由z2完全决定的,z5也是由z4完全决定的,因此条件部分可以改为:
p(z1,z3,z5)=p(z1|z2)p(z3|z4)p(z5)
进一步的,假设右端三个概率分布都是正态分布,其中p(z1|z2)的均值方差由z2通过过卷积运算得出,p(z3|z4)的均值方差由z4计算得来,p(z5)的均值方差通过直接学习得出。显然这样的假设会比简单认为它们都是标准正态分布要有效得多。由于flow模型的可逆性,输入输出维度一样,事实上这会存在非常严重的维度浪费问题,这往往要求我们需要用足够复杂的网络去缓解这个维度浪费。
进一步的,假设原来图像为h*w*c大小,前两个轴是空间维度,然后沿着空间维度分为一系列2*2*c的块,然后将每个块直接reshape为1*1*4c,也就是说最后变成了h=2_w=2_4c。通过squeeze操作,可以增加通道轴的维数,但依然保留局部相关性。
h/2×w/2×4c
现在来进一步拆解encoder,在输入之前进行尺度变换,然后打乱轴并进行分割,接着输入到耦合层中。如此训练K次,这里的K称为“深度”。其中actnorm和仿射耦合层会导致出现非1的雅可比行列式,为避免非1的雅可比行列式出现,需要在损失函数中加入
Figure BDA0002542948690000101
的这一项。
encoder中的定义的split2d不是简单的分割,而是混合了对分割后的变换运算。在基于流的生成模型中采用Actnorm层代替BN层进行缩放平移变换,其中μ与σ都是训练参数,在训练时采用初始的batch的均值和方差去初始化μ与σ这两个参数。
revnet部分中的Coupling层使用三层relu卷积,其中最后一层使用零初始化,这样就使得初始状态下输入输出一样,即初始状态为一个恒等变换,这有利于训练深层网络。可逆1*1卷积源于对置换操作的一般化。可逆1*1卷积替换该固定置换,其中权重矩阵被初始化为随机旋转矩阵。具有c*c权重矩阵W的h*w*c张量h的可逆1*1卷积的对数行列式很容易计算:
Figure BDA0002542948690000102
计算det(W)的成本是o(c3),其通常计算conv2D(h;W)即o(h·w·c2)的复杂度相当。将权重W初始化为随机旋转矩阵,其对数行列式为0,通过在LU分解中直接参数化W,可以将计算det(W)的成本从o(c3)减少到o(c):
W=PL(U+diag(s))
其中P是置换矩阵,L是下三角矩阵,对角线上有一个,U是对角线上有零的上三角矩阵,s是矢量。那么对数决定因素就是:
log|det(W)|=sum(log|s|)
在该参数化中,我们通过首先对随机旋转矩阵W进行采样来初始化参数,先随机生成一个正交矩阵,然后做LU分解,得到P,L,U,固定P,同时固定U的对角线的正负号,然后约束L为对角线全1的下三角阵,U为上三角阵,优化训练L,U的其余参数。
重新将模型的极大似然公式整理称如下:
logpθ(x)=logpθ(z)+log|det(df(x)/dx))|
模型构造的就是等号右边的这一项,将字体图像数据输入网络结构,此时就将其看作一个精准的编码器,log p(z)就是一个满足均值为0,方差为1的高斯分布,也是作为先验分布。在模型训练完成后,可从先验分布采样生成一个字体图像:
logpθ(x)+log|det(df(x)/dx))|-1=logpθ(z)
然后采用随机采样z=mean+elogstd×epssample,epssample取值为[0:0;1:00],这里的z是一个N(0,1)的采样,我们将正向传播时的输出端作为输入端,就可以从原来的输入端得到输出的图像结果。
参照图5,经过1200次迭代后,已经能够生成较为清晰的字体图像,即模型已经求解出原始分布到特定分布的转换。模型通过对原始特征进行编码时,输出的编码特征的各个维度是解耦的,由于每个维度的独立性,我们可以对两幅图像的编码进行插值。如图所示,对两幅图像的编码进行十次插值,通过插值后可以得到由细体到粗体转换的中间过渡图像,所得到的字体样本就可视为家族字体。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (5)

1.一种基于流模型的字体家族生成方法,其特征在于,包括以下步骤:
S1、字体数据集预处理:采集兰亭字体作为字符集,并将字符集通过字体文件输出字体图像作为字体数据集,对字体数据集中的每幅字体图像进行归一化处理,使每幅字体图像的像素矩阵中的灰度值映射至0-1范围内得到预处理数据集,在所述预处理数据集中选取预设数量的字体图像作为训练字体数据集;
S2、构建字体家族生成模型:所述字体家族生成模型包括输入层、encoder层以及输出层,并在输出层含有损失函数;包括以下步骤:
S21、输入层构建:
当输入层为离散数据时,设输入层x为具有未知真实分布x~P*(x)的高维随机向量;数据集D服从独立同分布,并选择带参数θ的模型pθ(x);当x为离散数据向量时,对数似然目标等效于最小化以下目标公式:
Figure FDA0002542948680000011
L(D)表示预处理数据集D的高阶无穷小,x为字体图像,x(i)为D中的第i个字体图像,N为D中包含的字体图像的数量;
当输入层x为连续数据向量时,最小化以下目标公式:
Figure FDA0002542948680000012
其中
Figure FDA0002542948680000013
u~U(0,a),其中a为数据的离散化水平参数,c=-M·loga,M是x的维数;
Figure FDA0002542948680000014
为x(i)的离散值,u是属于(0-a)中的一个随机数;
S22、基于流的生成模型构建:通过使用随机梯度下降方法进行优化;在基于流的生成模型中,生成过程定义为:
z~pθ(z)
X=gθ(z)
其中z是潜变量,函数gθ(z)是可逆的,也称为双射的,使得给定数据点x,潜在变量由z=fθ(z)=gθ -1(x)推断所得;x和z之间的关系记为可逆转换序列:
Figure FDA0002542948680000021
S23、构建模型的极大似然公式为:
log pθ(X)=log pθ(z)+log|det(df(x)/dx))|
定义
Figure FDA0002542948680000022
Figure FDA0002542948680000023
标量值log|det(dhi/dhi-1)|是雅克比矩阵dhi/dhi-1的行列式的绝对值的对数,该值是在转换fi下从hi-1到hi的对数密度变化;对于log|det(dhi/dhi-1)|采用三角矩阵的变换:
log|det(dhi/dhi-1)|=sum(log|diag(dhi/dhi-1))
其中,sum()取所有向量元素的总和,log()采用元素对数,diag()采用雅可比矩阵的对角线;
将训练字体数据集中的字体图像输入模型的极大似然公式中,极大似然公式作为一个精准的编码器,log pθ(z)就是一个满足均值为0,方差为1的高斯分布;在模型训练完成后,由log pθ(X)生成一个字体图像log pθ(z):
log pθ(x)+log|det(df(x)/dx))|-1=log pθ(z)
log pθ(x)+log|det(dg(z)/dz))|-1=log pθ(z);
S24、采用随机采样z=men+elogstd×epssample,epssample取值为[0.0,1.00],这里的是一个N(0,1)的采样,将正向传播时的输出端作为输入端,就可以从原来的输入端得到输出的图像结果;
S3、模型训练:将步骤S1的预处理字体数据集输入到字体家族生成模型中,对模型进行训练;训练方法包括以下步骤:
S31、将预处理数据集和噪声矩阵一起输入到字体家族生成模型中;所述噪声矩阵为一个正态分布均值为0,方差为0.01的1xSamLnNum的随机数矩阵;
S32、设置字体家族生成模型encoder层的数量及encoder层中revnet部分的数量;使所述字体家族生成模型的encoder层经过1200次迭代之后,由输出层得到字体图像;
S34、最终使用“输出的平均平方和”作为损失函数对模型进行训练;
S4、在预处理数据集中选取粗细不同的两幅字体图像的极大似然公式中进行编码时对两幅图像的编码进行十次插值,插值后得到由细体到粗体转换的中间过渡图像,所得中间过渡图像即为家族字体。
2.根据权利要求1所述的一种基于流模型的字体家族生成方法,其特征在于,所述归一化处理的方法为:利用int_to_float函数将每幅汉字图片的像素矩阵的灰度值由0-255转化为0-1范围。
3.根据权利要求1所述的一种基于流模型的字体家族生成方法,其特征在于,encoder为多尺度结构。
4.根据权利要求1所述的一种基于流模型的字体家族生成方法,其特征在于,所述encoder模块的数量为4,encoder模块中revnet部分数量为16。
5.根据权利要求1所述的一种基于流模型的字体家族生成方法,其特征在于,步骤S1中预设数量为9000个汉字。
CN202010552157.0A 2020-06-17 2020-06-17 一种基于流模型的字体家族生成方法 Pending CN111666950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010552157.0A CN111666950A (zh) 2020-06-17 2020-06-17 一种基于流模型的字体家族生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010552157.0A CN111666950A (zh) 2020-06-17 2020-06-17 一种基于流模型的字体家族生成方法

Publications (1)

Publication Number Publication Date
CN111666950A true CN111666950A (zh) 2020-09-15

Family

ID=72388229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010552157.0A Pending CN111666950A (zh) 2020-06-17 2020-06-17 一种基于流模型的字体家族生成方法

Country Status (1)

Country Link
CN (1) CN111666950A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487992A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种基于流模型的人脸情绪图像的生成方法及设备
CN116563673A (zh) * 2023-07-10 2023-08-08 浙江华诺康科技有限公司 烟雾训练数据生成方法、装置和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064522A (zh) * 2018-08-03 2018-12-21 厦门大学 基于条件生成对抗网络的汉字字体生成方法
CN109408776A (zh) * 2018-10-09 2019-03-01 西华大学 一种基于生成式对抗网络的书法字体自动生成算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064522A (zh) * 2018-08-03 2018-12-21 厦门大学 基于条件生成对抗网络的汉字字体生成方法
CN109408776A (zh) * 2018-10-09 2019-03-01 西华大学 一种基于生成式对抗网络的书法字体自动生成算法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487992A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种基于流模型的人脸情绪图像的生成方法及设备
CN112487992B (zh) * 2020-12-02 2022-07-22 重庆邮电大学 一种基于流模型的人脸情绪图像的生成方法及设备
CN116563673A (zh) * 2023-07-10 2023-08-08 浙江华诺康科技有限公司 烟雾训练数据生成方法、装置和计算机设备
CN116563673B (zh) * 2023-07-10 2023-12-12 浙江华诺康科技有限公司 烟雾训练数据生成方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
Jia et al. Focnet: A fractional optimal control network for image denoising
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN107871014A (zh) 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN111666950A (zh) 一种基于流模型的字体家族生成方法
CN108446766A (zh) 一种快速训练堆栈自编码深度神经网络的方法
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN110705459A (zh) 数理化公式自动识别方法及装置、模型训练方法及装置
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN115331073A (zh) 一种基于TransUnet架构的影像自监督学习方法
CN116596150A (zh) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法
CN115908639A (zh) 基于transformer的场景图像文字修改方法、装置、电子设备及存储介质
EP3664017B1 (en) Method and device for digital image or video data processing
CN116563399A (zh) 一种基于扩散模型和生成对抗网络的图像生成方法
CN114037770A (zh) 一种基于离散傅里叶变换的注意力机制的图像生成方法
Lin Comparative Analysis of Pix2Pix and CycleGAN for image-to-image translation
CN117313531A (zh) 光子能带预测透射谱模型的训练、预测方法、介质及设备
CN116935126A (zh) 一种基于经典—量子混合机器学习的医学图像分类方法
CN112487992B (zh) 一种基于流模型的人脸情绪图像的生成方法及设备
CN113421314B (zh) 一种基于生成对抗网络的多尺度双模态文本生成图像方法
CN113377907B (zh) 基于记忆掩码自注意力网络的端到端任务型对话系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination