CN111161266A - 一种基于矢量量化的变分自编码机的多风格字体生成方法 - Google Patents

一种基于矢量量化的变分自编码机的多风格字体生成方法 Download PDF

Info

Publication number
CN111161266A
CN111161266A CN201911241906.1A CN201911241906A CN111161266A CN 111161266 A CN111161266 A CN 111161266A CN 201911241906 A CN201911241906 A CN 201911241906A CN 111161266 A CN111161266 A CN 111161266A
Authority
CN
China
Prior art keywords
style
image
font
network
img
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911241906.1A
Other languages
English (en)
Other versions
CN111161266B (zh
Inventor
张九龙
温昕燃
屈晓娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201911241906.1A priority Critical patent/CN111161266B/zh
Publication of CN111161266A publication Critical patent/CN111161266A/zh
Application granted granted Critical
Publication of CN111161266B publication Critical patent/CN111161266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T3/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种基于矢量量化的变分自编码机的多风格字体生成方法,建立固定字体风格的汉字图片的取样样本;根据取样样本,通过调试过的固定尺寸的框和步长依次对取样样本的字符进行切割,经调试后的框内只包括一个字,将框内的数据读取出来,转成图片保存,即切割出单个字体的图像,切割后随机选取图像作为需要扩充的风格字体的数据集,作为最终训练数据;将得到的最终训练数据输入网络结构进行迭代和训练,并将网络输出得到的损失值输入优化器来更新编码器权重和解码器权重,以及量化隐向量的参数值;将单个训练样本和待扩展的汉字数据样本带入经更新的编码器和解码器中进行重构,得到进行风格扩充后的字体样本。

Description

一种基于矢量量化的变分自编码机的多风格字体生成方法
技术领域
本发明属于图像处理与人工智能深度学习技术领域,涉及一种基于矢量量化的变分自编码机的多风格字体生成方法。
背景技术
文字作为信息的载体,不仅传达了人们想要表达的内容,文字的样式作为一种艺术形式也逐渐被人们开发起来。在海报设计,标语设计等方面,使用合适的字体在阅读时更能吸引读者的注意力,也极大的提高了文字整体的美观度。现已有的一些办公软件和图片处理软件已经内置了很多常用的风格字体,网络上也有很多个人或企业设计的其他样式的字体。但部分风格字体的字库在设计时没有囊括一些不常用的汉字,而使用者会因此产生字体风格样式不统一的情况,影响了设计的美观度。不同风格字体字库在设计时需要设计师来设计主体的风格,从而扩展到其他文字,但为了使字库囊括所有的汉字,又会增加设计师的工作量,消耗更多的人力与物力。
鉴于以上种种原因,如何在现有风格字体字库的基础上对字库中不包含的汉字进行风格扩充,同时保证扩充时风格的准确性,成为当下需要解决的一个问题。
发明内容
本发明的目的是提供一种基于矢量量化的变分自编码机的多风格字体生成方法,解决了现有技术中存在的风格字体字库中的部分非常用汉字不具备相同风格,设计其他风格字体字库时费时费力的问题。
本发明所采用的技术方案是,一种基于矢量量化的变分自编码机的多风格字体生成方法,包括以下步骤:
步骤1、建立固定字体风格的汉字图片的取样样本;
步骤2、根据步骤1中的取样样本,通过调试过的固定尺寸的框和步长依次对取样样本的字符进行切割,经调试后的框内只包括一个字,将框内的数据读取出来,转成图片保存,即切割出单个字体的图像,切割后随机选取图像作为需要扩充的风格字体的数据集,作为最终训练数据;
步骤3、将步骤2中得到的最终训练数据输入网络结构进行迭代和训练,并将网络输出得到的损失值输入优化器来更新编码器权重和解码器权重,以及量化隐向量的参数值;
步骤4、将单个训练样本和待扩展的汉字数据样本带入经步骤3更新的编码器和解码器中进行重构,得到进行风格扩充后的字体样本。
本发明的特点还在于:
步骤1和步骤2的具体过程为:
步骤1、首先在Word文档中输入m页固定字体风格的汉字,每个汉字之间插入空格;然后将该Word文档转成pdf格式;最后将pdf格式转成jpg格式图片,最终将得到m张图片,即为取样样本;
步骤2、对步骤1取样样本中的m张图片,通过调试过的固定尺寸的框和步长依次对每张图片的字符随机切割出i张、大小为c×r的图片,即得到m×i张、大小为c×r的图片,得到最终训练数据。
步骤3的具体过程为:
步骤3.1、选取步骤2中任意一个字体风格的图像style_img,输入到编码器E,字体风格图像style_img经过编码器网络的底层计算,得到该图像的底层特征图hbottom=Ebottom(style_img),代表输入图像的结构信息;再将底层特征图经过编码器网络的上层计算,得到该图像的上层特征图htop=Etop(hbottom),代表该输入图像的细节信息;
步骤3.2、将步骤3.1得到的上层特征图htop根据公式(1)进行矢量量化,得到上层特征图对应的隐空间向量etop
Figure BDA0002306488410000031
其中,E(x)表示解码器的输出;ej是服从某一分布的随机向量,表示隐变量,Quantize()代表量化的函数,ek代表量化后得到对应的隐空间的向量,k代表下标,argmin代表取(E(x)-ej)所有值中最小值对应的向量下标;
步骤3.3、将步骤3.2中得到的etop经过解码器上层网络Dtop,再将输出和底层特征图hbottom合并输入到矢量量化模块,得到底层特征图对应的隐空间向量ebottom
步骤3.4、将步骤3.2、步骤3.3中通过矢量量化得到的对应隐空间向量etop、ebottom输入到底层解码器Dbottom中进行重构,输出重构后的图像generated_img;
步骤3.5、通过网络损失函数计算出变分自编码机中整个网络的损失,使用Adam梯度下降方法来更新编码器网络、解码器网络和矢量量化网络中的权重Adam(w,Lossw,α),其中α表示梯度下降的学习率且α=0.0003,Lossw表示整个网络的损失,w表示整个网络中的权重;当解码器网络输入e后输出的结果D(e)≈输入图像x时,则generated_img≈style_img,得到的整个网络中的权重w具有了训练数据中字体对应的风格特征,训练完成。
步骤3.1的具体过程为:
选取步骤2中任意一个字体风格的图像style_img,输入到编码器E,字体风格图像style_img先经过编码器网络的三个后接relu模块的卷积模块和两个RB模块,然后经过一个卷积模块和一个Tanh模块,得到图像的底层特征hbottom=Ebottom(style_img),代表图像的结构信息;再将底层特征通过两个后接relu模块的卷积模块和两个RB模块,最后通过一个卷积模块和一个Tanh模块,得到图像的上层特征htop=Etop(style_img),代表图像的细节信息。
步骤3.2的具体过程为:
根据公式(2)计算输入的步骤3.1得到的上层特征图htop和由初始化的ej构成的隐变量矩阵wquantize的欧式距离,取各距离最小的ej在隐变量矩阵wquantize中的位置,表示与输入特征图的每个通道中各个像素点最接近的隐变量ej的位置信息,再根据计算得到的位置信息找到隐变量矩阵中对应的向量,构成矢量量化后的结果etop
Figure BDA0002306488410000041
其中dist(X,Y)表示欧式距离,xi、yi表示隐变量矩阵中的元素,n表示个数。
步骤3.3的具体过程为:
将步骤3.2中得到的etop先经过解码器的一个卷积模块和一个relu模块,再通过两个RB模块,然后经过一个反卷积模块和一个Tanh模块,输出上层特征经过重构后的结果decoder_top,再将decoder_top和底层特征图hbottom通过公式(1)进行矢量量化,得到底层特征对应的隐空间向量ebottom
步骤3.4的具体过程为:
将etop和ebottom合并后通过一个卷积模块和relu模块,再经过2个RB模块,然后经过一个反卷积模块和一个relu模块,最后经过一个反卷积模块,输出一张与输入图像一样大小的图像generated_img。
步骤3.5中变分自编码机的网络损失函数为公式(3):
Figure BDA0002306488410000051
其中,
Figure BDA0002306488410000052
是网络整体的损失函数,E(x)表示图像x输入编码器之后的结果,代表该图像的顶层和底层的特征;e表示的是输入图像的特征图的隐向量,D(e)表示解码器网络输入e后输出的结果,代表着重构的图像;sg代表着停止梯度的操作,为了阻止梯度反向传播到该模块;β为常数且β=0.25,L2表示欧氏距离,w表示编码器网络、解码器网络和矢量量化中的权重。
步骤4的具体过程为:
步骤4.1、取和训练数据大小、风格相同的图像作为style_img,以及和训练数据同大小的待风格化的字体图像作为配对的图像label_img;
步骤4.2、将所述步骤4.1中的style_img输入到编码器的上层网络Etop,得到风格字体的细节特征htop;再将所述步骤4.1中的label_img输入到编码器的底层网络Ebottom,得到待风格化字体的结构特征hbottom;通过矢量量化后,输入到解码器进行重构,即得到风格化后的字体图片generated_img。
本发明的有益效果是:
(1)本发明多风格字体图像生成方法主要是基于变分自动编码机网络和人工数据集进行训练和图像生成,能够对字体图像进行多种风格的字体图像生成;
(2)本发明多风格字体图像生成方法,能够使字体字库中缺失该风格的字体进行风格化生成,对风格字体的字库进行扩充,为后续该文字的应用提供了一个很好的预处理操作;
(3)本发明多风格字体图像生成方法对于一些风格字库中不具有该风格的字体,能够有效地对其实现风格化的生成,在文字字库数字化的过程中提供一个自动生成的操作,扩充风格字体字库;同时可以有效地减少设计人员在设计风格字库时耗费的人力物力,有很好的使用价值。
附图说明
图1是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中训练的框架流程图;
图2是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法的详细过程图;
图3是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中编码器网络结构图;
图4是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中编码器网络结构内残差模块(RB)网络结构图;
图5是本发明一种基于矢量量化的变分自编码机的多风格字体生成方法中解码器网络结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于矢量量化的变分自编码机的多风格字体生成方法,如图1和2所示,包括以下步骤:
步骤1、建立固定字体风格的汉字图片的取样样本;
步骤2、根据步骤1中的取样样本,通过调试过的固定尺寸的框和步长依次对取样样本的字符进行切割,经调试后的框内只包括一个字,将框内的数据读取出来,转成图片保存,即切割出单个字体的图像,切割后随机选取图像作为需要扩充的风格字体的数据集,作为最终训练数据;
步骤3、将步骤2中得到的最终训练数据输入网络结构进行迭代和训练,并将网络输出得到的损失值输入优化器来更新编码器权重和解码器权重,以及量化隐向量的参数值;
步骤4、将单个训练样本和待扩展的汉字数据样本带入经步骤3更新的编码器和解码器中进行重构,得到进行风格扩充后的字体样本。
其中步骤1和步骤2的具体过程为:
步骤1、首先在Word文档中输入m页固定字体风格的汉字,每个汉字之间插入空格;然后将该Word文档转成pdf格式;最后将pdf格式转成jpg格式图片,最终将得到m张图片,即为取样样本;
步骤2、对步骤1取样样本中的m张图片,通过调试过的固定尺寸的框和步长依次对每张图片的字符随机切割出i张、大小为c×r的图片,即得到m×i张、大小为c×r的图片,得到最终训练数据。
步骤3的具体过程为:
步骤3.1、选取步骤2中任意一个字体风格的图像style_img,输入到编码器E,字体风格图像style_img经过编码器网络的底层计算,得到该图像的底层特征图hbottom=Ebottom(style_img),代表输入图像的结构信息;再将底层特征图经过编码器网络的上层计算,得到该图像的上层特征图htop=Etop(hbottom),代表该输入图像的细节信息;
步骤3.1的具体过程为:
选取步骤2中任意一个字体风格的图像style_img,输入到编码器E,字体风格图像style_img先经过编码器网络的三个后接relu模块的卷积模块和两个RB模块,然后经过一个卷积模块和一个Tanh模块,得到图像的底层特征hbottom=Ebottom(style_img),代表图像的结构信息;再将底层特征通过两个后接relu模块的卷积模块和两个RB模块,最后通过一个卷积模块和一个Tanh模块,得到图像的上层特征htop=Etop(style_img),代表图像的细节信息。
如图3所示,在编码器网络结构图中:Conv,32,k4,s2表示卷积操作,卷积核为32个、卷积核大小为4x4、步长s设置为1;ReLU表示一个非线性激活函数;Conv,64,k4,s2表示卷积操作,卷积核为64个、卷积核大小为4x4、步长s设置为2;Conv,128,k3,s1表示卷积操作,卷积核为128个、卷积核大小为3x3、步长s设置为1;Conv,64,k1,s1表示卷积操作,卷积核为64个、卷积核大小为1x1、步长s设置为1;Tanh表示一个非线性激活函数。
如图4所示为RB1…RB8中任意一个RB网络结构图。其中,Conv1~Conv2分别表示2个卷积操作,Conv1,64,k3,s1表示卷积操作,卷积核为64个、卷积核大小为3x3、步长s设置为1;Conv2,128,k1,s1表示卷积操作,卷积核为128个、卷积核大小为1x1、步长s设置为1;ReLU表示一个非线性激活函数;以下公式表示残差模块的过程:
H(x)=F(x)+x
公式中,x表示残差模块的输入,H(x)表示残差模块的输出,F(x)代表着残差,通过变换可以得到:
F(x)=H(x)-x
从而变成神经网络去拟合输入与输出之间的残差,本发明网络结构中使用了残差模块,为了使网络的效果不受其层数的影响。
步骤3.2、将步骤3.1得到的上层特征图htop根据公式(1)进行矢量量化,得到上层特征图对应的隐空间向量etop
Figure BDA0002306488410000091
其中,E(x)表示解码器的输出;ej是服从某一分布的随机向量,表示隐变量,Quantize()代表量化的函数,ek代表量化后得到对应的隐空间的向量,k代表下标,argmin代表取(E(x)-ej)所有值中最小值对应的向量下标;
步骤3.2的具体过程为:
根据公式(2)计算输入的步骤3.1得到的上层特征图htop和由初始化的ej构成的隐变量矩阵wquantize的欧式距离,取各距离最小的ej在隐变量矩阵wquantize中的位置,表示与输入特征图的每个通道中各个像素点最接近的隐变量ej的位置信息,再根据计算得到的位置信息找到隐变量矩阵中对应的向量,构成矢量量化后的结果etop
Figure BDA0002306488410000092
其中dist(X,Y)表示欧式距离,xi、yi表示隐变量矩阵中的元素,n表示个数。
步骤3.3、将步骤3.2中得到的etop经过解码器上层网络Dtop,再将输出和底层特征图hbottom合并输入到矢量量化模块,得到底层特征图对应的隐空间向量ebottom
步骤3.3的具体过程为:
将步骤3.2中得到的etop先经过解码器的一个卷积模块和一个relu模块,再通过两个RB模块,然后经过一个反卷积模块和一个Tanh模块,输出上层特征经过重构后的结果decoder_top,再将decoder_top和底层特征图hbottom通过公式(1)进行矢量量化,得到底层特征对应的隐空间向量ebottom
如图5(a)所示,在解码器上层的网络结构图中:Conv,128,k3,s1表示卷积操作,卷积核为128个、卷积核大小为3x3、步长s设置为1;Conv,64,k3,s1/2表示反卷积操作,卷积核为64个、卷积核大小为3x3、步长s设置为1/2;Tanh和ReLU分别表示一个非线性激活函数,RB表示一个残差模块。
步骤3.4、将步骤3.2、步骤3.3中通过矢量量化得到的对应隐空间向量etop、ebottom输入到底层解码器Dbottom中进行重构,输出重构后的图像generated_img;
步骤3.4的具体过程为:
将etop和ebottom合并后通过一个卷积模块和relu模块,再经过2个RB模块,然后经过一个反卷积模块和一个relu模块,最后经过一个反卷积模块,输出一张与输入图像一样大小的图像generated_img;
如图5(b)所示,在解码器底层的网络结构图中:Conv,128,k3,s1表示卷积操作,卷积核为128个、卷积核大小为3x3、步长s设置为1;Conv,64,k3,s1/2表示反卷积操作,卷积核为64个、卷积核大小为3x3、步长s设置为1/2;Conv,3,k4,s1/2表示反卷积操作,卷积核为3个、卷积核大小为4x4、步长s设置为1/2;ReLU表示一个非线性激活函数;RB表示一个残差模块;底层网络输入之后,输出得到generated_img,即重构之后的图像。
步骤3.5、通过网络损失函数计算出变分自编码机中整个网络的损失,其中变分自编码机的网络损失函数为公式(3):
Figure BDA0002306488410000111
其中,
Figure BDA0002306488410000112
是网络整体的损失函数,E(x)表示图像x输入编码器之后的结果,代表该图像的顶层和底层的特征;e表示的是输入图像的特征图的隐向量,D(e)表示解码器网络输入e后输出的结果,代表着重构的图像;sg代表着停止梯度的操作,为了阻止梯度反向传播到该模块;β为常数且β=0.25,L2表示欧氏距离,w表示编码器网络、解码器网络和矢量量化中的权重;网络整体的损失函数可以看成三个部分:第一部分是重构损失,用来更新编码器和解码器;第二部分是对于隐空间向量的损失,用来更新隐空间向量的值;第三部分是一个承诺损失,促使编码器的输出保持接近其所选择的隐空间向量,从而方式输出频繁的从一个隐空间向量波动到另一个;
使用Adam梯度下降方法来更新编码器网络、解码器网络和矢量量化网络中的权重Adam(w,Lossw,α),其中α表示梯度下降的学习率且α=0.0003,Lossw表示整个网络的损失,w表示整个网络中的权重;当解码器网络输入e后输出的结果D(e)≈输入图像x时,则generated_img≈style_img,得到的整个网络中的权重w具有了训练数据中字体对应的风格特征,训练完成。
步骤4的具体过程为:
步骤4.1、取和训练数据大小、风格相同的图像作为style_img,以及和训练数据同大小的待风格化的字体图像作为配对的图像label_img;
步骤4.2、将所述步骤4.1中的style_img输入到编码器的上层网络Etop,得到风格字体的细节特征htop;再将所述步骤4.1中的label_img输入到编码器的底层网络Ebottom,得到待风格化字体的结构特征hbottom;通过矢量量化后,输入到解码器进行重构,即得到风格化后的字体图片generated_img。
最终训练数据训练完成后,得到更新的网络权重,最后将和训练样本同风格和待扩展风格的字体图像作为图像对输入网络,得到风格化扩展后的字体图像。
本发明一种基于矢量量化的变分自编码机的多风格字体生成方法,其优点在于:本发明对于风格字库中由于设计不完全或未被考虑的少量不常用的未被风格化的汉字,能够有效地对其进行对应的多风格生成,对于风格字库提供一个自动扩充字库的操作;同时可以有效地减少设计人员在设计不同风格字库时耗费的人力物力,有很好的使用价值。

Claims (9)

1.一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,包括以下步骤:
步骤1、建立固定字体风格的汉字图片的取样样本;
步骤2、根据步骤1中的取样样本,通过调试过的固定尺寸的框和步长依次对取样样本的字符进行切割,经调试后的框内只包括一个字,将框内的数据读取出来,转成图片保存,即切割出单个字体的图像,切割后随机选取图像作为需要扩充的风格字体的数据集,作为最终训练数据;
步骤3、将步骤2中得到的最终训练数据输入网络结构进行迭代和训练,并将网络输出得到的损失值输入优化器来更新编码器权重和解码器权重,以及量化隐向量的参数值;
步骤4、将单个训练样本和待扩展的汉字数据样本带入经步骤3更新的编码器和解码器中进行重构,得到进行风格扩充后的字体样本。
2.根据权利要求1所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤1和步骤2的具体过程为:
步骤1、首先在Word文档中输入m页固定字体风格的汉字,每个汉字之间插入空格;然后将该Word文档转成pdf格式;最后将pdf格式转成jpg格式图片,最终将得到m张图片,即为取样样本;
步骤2、对步骤1取样样本中的m张图片,通过调试过的固定尺寸的框和步长依次对每张图片的字符随机切割出i张、大小为c×r的图片,即得到m×i张、大小为c×r的图片,得到最终训练数据。
3.根据权利要求1所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤3的具体过程为:
步骤3.1、选取步骤2中任意一个字体风格的图像style_img,输入到编码器E,字体风格图像style_img经过编码器网络的底层计算,得到该图像的底层特征图hbottom=Ebottom(style_img),代表输入图像的结构信息;再将底层特征图经过编码器网络的上层计算,得到该图像的上层特征图htop=Etop(hbottom),代表该输入图像的细节信息;
步骤3.2、将步骤3.1得到的上层特征图htop根据公式(1)进行矢量量化,得到上层特征图对应的隐空间向量etop
Figure FDA0002306488400000021
其中,E(x)表示解码器的输出;ej是服从某一分布的随机向量,表示隐变量,Quantize()代表量化的函数,ek代表量化后得到对应的隐空间的向量,k代表下标,argmin代表取(E(x)-ej)所有值中最小值对应的向量下标;
步骤3.3、将步骤3.2中得到的etop经过解码器上层网络Dtop,再将输出和底层特征图hbottom合并输入到矢量量化模块,得到底层特征图对应的隐空间向量ebottom
步骤3.4、将步骤3.2、步骤3.3中通过矢量量化得到的对应隐空间向量etop、ebottom输入到底层解码器Dbottom中进行重构,输出重构后的图像generated_img;
步骤3.5、通过网络损失函数计算出变分自编码机中整个网络的损失,使用Adam梯度下降方法来更新编码器网络、解码器网络和矢量量化网络中的权重Adam(w,Lossw,α),其中α表示梯度下降的学习率且α=0.003,Lossw表示整个网络的损失,w表示整个网络中的权重;当解码器网络输入e后输出的结果D(e)≈输入图像x时,则generated_img≈style_img,得到的整个网络中的权重w具有了训练数据中字体对应的风格特征,训练完成。
4.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤3.1的具体过程为:
选取步骤2中任意一个字体风格的图像style_img,输入到编码器E,字体风格图像style_img先经过编码器网络的三个后接relu模块的卷积模块和两个RB模块,然后经过一个卷积模块和一个Tanh模块,得到图像的底层特征hbottom=Ebottom(style_img),代表图像的结构信息;再将底层特征通过两个后接relu模块的卷积模块和两个RB模块,最后通过一个卷积模块和一个Tanh模块,得到图像的上层特征htop=Etop(style_img),代表图像的细节信息。
5.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤3.2的具体过程为:
根据公式(2)计算输入的步骤3.1得到的上层特征图htop和由初始化的ej构成的隐变量矩阵Wquantize的欧式距离,取各距离最小的ej在隐变量矩阵Wquantize中的位置,表示与输入特征图的每个通道中各个像素点最接近的隐变量ej的位置信息,再根据计算得到的位置信息找到隐变量矩阵中对应的向量,构成矢量量化后的结果etop
Figure FDA0002306488400000031
其中dist(X,Y)表示欧式距离,xi、yi表示隐变量矩阵中的元素,n表示个数。
6.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤3.3的具体过程为:
将步骤3.2中得到的etop先经过解码器的一个卷积模块和一个relu模块,再通过两个RB模块,然后经过一个反卷积模块和一个Tanh模块,输出上层特征经过重构后的结果decoder_top,再将decoder_top和底层特征图hbottom通过公式(1)进行矢量量化,得到底层特征对应的隐空间向量ebottom
7.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤3.4的具体过程为:
将etop和ebottom合并后通过一个卷积模块和relu模块,再经过2个RB模块,然后经过一个反卷积模块和一个relu模块,最后经过一个反卷积模块,输出一张与输入图像一样大小的图像generated_img。
8.根据权利要求3所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤3.5中变分自编码机的网络损失函数为公式(3):
Figure FDA0002306488400000041
其中,
Figure FDA0002306488400000042
)是网络整体的损失函数,E(x)表示图像x输入编码器之后的结果,代表该图像的顶层和底层的特征;e表示的是输入图像的特征图的隐向量,D(e)表示解码器网络输入e后输出的结果,代表着重构的图像;sg代表着停止梯度的操作,为了阻止梯度反向传播到该模块;β为常数且β=0.25,L2表示欧氏距离,w表示编码器网络、解码器网络和矢量量化中的权重。
9.根据权利要求1所述的一种基于矢量量化的变分自编码机的多风格字体生成方法,其特征在于,所述步骤4的具体过程为:
步骤4.1、取和训练数据大小、风格相同的图像作为style_img,以及和训练数据同大小的待风格化的字体图像作为配对的图像label_img;
步骤4.2、将所述步骤4.1中的style_img输入到编码器的上层网络Etop,得到风格字体的细节特征htop;再将所述步骤4.1中的label_img输入到编码器的底层网络Ebottom,得到待风格化字体的结构特征hbottom;通过矢量量化后,输入到解码器进行重构,即得到风格化后的字体图片generated_img。
CN201911241906.1A 2019-12-06 2019-12-06 一种基于矢量量化的变分自编码机的多风格字体生成方法 Active CN111161266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911241906.1A CN111161266B (zh) 2019-12-06 2019-12-06 一种基于矢量量化的变分自编码机的多风格字体生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911241906.1A CN111161266B (zh) 2019-12-06 2019-12-06 一种基于矢量量化的变分自编码机的多风格字体生成方法

Publications (2)

Publication Number Publication Date
CN111161266A true CN111161266A (zh) 2020-05-15
CN111161266B CN111161266B (zh) 2022-03-25

Family

ID=70556455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911241906.1A Active CN111161266B (zh) 2019-12-06 2019-12-06 一种基于矢量量化的变分自编码机的多风格字体生成方法

Country Status (1)

Country Link
CN (1) CN111161266B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761831A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 风格书法生成方法、装置、设备及存储介质
CN114205646A (zh) * 2020-09-18 2022-03-18 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286886A1 (en) * 2014-04-04 2015-10-08 Vision Objects System and method for superimposed handwriting recognition technology
CN108805833A (zh) * 2018-05-29 2018-11-13 西安理工大学 基于条件对抗网络的字帖二值化背景噪声杂点去除方法
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN110211203A (zh) * 2019-06-10 2019-09-06 大连民族大学 基于条件生成对抗网络的汉字字体的方法
CN110533737A (zh) * 2019-08-19 2019-12-03 大连民族大学 基于结构引导汉字字体生成的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286886A1 (en) * 2014-04-04 2015-10-08 Vision Objects System and method for superimposed handwriting recognition technology
CN108805833A (zh) * 2018-05-29 2018-11-13 西安理工大学 基于条件对抗网络的字帖二值化背景噪声杂点去除方法
CN109165376A (zh) * 2018-06-28 2019-01-08 西交利物浦大学 基于少量样本的风格字符生成方法
CN110211203A (zh) * 2019-06-10 2019-09-06 大连民族大学 基于条件生成对抗网络的汉字字体的方法
CN110533737A (zh) * 2019-08-19 2019-12-03 大连民族大学 基于结构引导汉字字体生成的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONGDONG CHEN ET AL.: ""StyleBank: An Explicit Representation for Neural Image Style Transfer"", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
滕少华 等: ""基于生成式对抗网络的中文字体风格迁移"", 《计算机应用研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205646A (zh) * 2020-09-18 2022-03-18 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN114205646B (zh) * 2020-09-18 2024-03-29 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113761831A (zh) * 2020-11-13 2021-12-07 北京沃东天骏信息技术有限公司 风格书法生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111161266B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
Lopes et al. A learned representation for scalable vector graphics
US10671889B2 (en) Committed information rate variational autoencoders
US11164059B2 (en) Two-dimensional code image generation method and apparatus, storage medium and electronic device
US20190180154A1 (en) Text recognition using artificial intelligence
CN108170649B (zh) 一种基于dcgan深度网络的汉字字库生成方法及装置
CN110728541A (zh) 信息流媒体广告创意推荐方法及装置
CN109635883A (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
CN108563622B (zh) 一种具有风格多样性的绝句生成方法及装置
CN112232149A (zh) 一种文档多模信息和关系提取方法及系统
CN109711409A (zh) 一种结合U-net和ResNet的手写乐谱谱线删除方法
CN114067119B (zh) 全景分割模型的训练方法、全景分割方法及装置
CN111161266B (zh) 一种基于矢量量化的变分自编码机的多风格字体生成方法
CN112163401A (zh) 基于压缩与激励的gan网络的汉字字体生成方法
CN111563563B (zh) 一种手写体识别的联合数据的增强方法
CN117194637B (zh) 基于大语言模型的多层级可视化评估报告生成方法、装置
CN113421318A (zh) 一种基于多任务生成对抗网络的字体风格迁移方法和系统
DE102022003003A1 (de) Automatische Fotobearbeitung mittels sprachlicher Anweisung
CN115457183A (zh) 序列化草图生成与重建模型训练方法、重建方法及装置
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和系统
CN112132075A (zh) 图文内容处理方法及介质
JP7449332B2 (ja) コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置
CN117057310A (zh) 一种基于扩散模型的字体生成方法及装置
CN111026899A (zh) 一种基于深度学习的产品生成方法
CN111274793A (zh) 一种文本处理方法、装置以及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant