CN114742014A - 基于关联注意力的少样本文字风格迁移方法 - Google Patents
基于关联注意力的少样本文字风格迁移方法 Download PDFInfo
- Publication number
- CN114742014A CN114742014A CN202210377959.1A CN202210377959A CN114742014A CN 114742014 A CN114742014 A CN 114742014A CN 202210377959 A CN202210377959 A CN 202210377959A CN 114742014 A CN114742014 A CN 114742014A
- Authority
- CN
- China
- Prior art keywords
- style
- attention
- content
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013508 migration Methods 0.000 title claims abstract description 34
- 230000005012 migration Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 239000010410 layer Substances 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 238000013461 design Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 125000004432 carbon atom Chemical group C* 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明公开了基于关联注意力的少样本文字风格迁移方法,包括:构建训练数据集和测试数据集;训练数据集包括内容参考集、风格参考集;构建基于关联注意力的生成对抗网络,生成对抗网络包括生成器网路、鉴别器网络;设置损失函数;利用构建的损失函数训练生成对抗网络;利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。在多对多字体的风格迁移上表现良好,模型充分提取了风格信息和内容信息,生成的字符笔画更加完整,与真实值更加相近,在多域文字风格迁移中生成更高质量、更和谐的字符图像。
Description
技术领域
本发明属于文字生成方法技术领域,涉及一种基于关联注意力的少样本文字风格迁移方法。
背景技术
在视觉设计中,字体的样式十分重要,不同的字体为视觉设计带来的氛围感完全不同。然而,设计一种新的字体是一项费时费力的工作,不仅需要考虑诸多因素,如笔画、纹理、颜色等,而且,所有字符都需要保持一致的风格和适当的大小。创作字库从画稿到上线,是设计师团队通力合作、一笔一画调整修改而来,一套适合推广、商用的字体需要2-3年,其中绝大部分的时间用在从基本字形向上千字形的扩充、拼组、调试上,且这部分工作由较高素质的字体设计师完成,是一项重复性、严谨的工作,另外字体设计师花费极大的精力用在遵循设定好的框架、规则中去完成工作,没有创作的空间。通常字体设计师为拉丁字母设计一种字体通常几周或者几个月的时间,对于某些语言(如汉语和朝鲜语),他们包含大量字符(汉语最多50000个字,朝鲜语最多11172个字符),所以如何更高效的设计一套风格化字体成为一个急需解决的任务。
随着深度学习(Deep learning)的兴起,无需人工干预的字体自动生成成为可能。字体自动生成可视为字体的风格迁移,旨在通过学习不同字体域之间的映射,保证字体语义内容不变的同时对字体的字形作相应的转换。这极大的缩短了字库的制作时间,降低了制作成本,极大满足文化教育、娱乐传媒和商业等领域的用字需求。尽管基于深度学习的文字风格迁移有了一定的发展,但这些方法在许多实际场景中的应用是不切实际的,如生成手写字库时,收集这类训练样本困难且耗时巨大。而少样本文字风格迁移利用少量的风格参考集生成一套完整的字库,更能符合实际应用要求,具有更高的应用价值,另一方面,大多数多样本任务无法生成训练时未见过的风格字体,当需要对训练时未见过的字体进行风格迁移,重新训练模型是极其费时的。
在少样本文字风格迁移问题中,我们希望通过使用少量风格参考集去生成新的字形,并且不需要额外的微调,例如在测试时仅通过六个风格参考图像生成一套完整风格化字库。为了在少量风格参考集中充分学习到风格特征,当前的主流方法是特征分离引导文字风格迁移,分别使用内容编码器和风格编码器学习内容和风格特征。为了提高字符的生成质量,一些方法为生成模型添加先验信息,将复杂的字形拆解成部件或笔画,还有一些方法通过使用注意力机制关注风格特征的上下文注意力加强特征的提取。但是这些方法未考虑内容编码器提取的内容特征和风格编码器提取的风格特征之间的关联性,这会导致多域字体之间的风格迁移结果较差。
发明内容
本发明的目的是提供一种基于关联注意力的少样本文字风格迁移方法,解决了现有技术中存在的现有字体风格迁移方法的风格特征学习不充分导致风格迁移结果较差的问题。
本发明所采用的技术方案是,基于关联注意力的少样本文字风格迁移方法,包括以下步骤:
步骤1、构建训练数据集和测试数据集;训练数据集包括内容参考集、风格参考集;
步骤2、构建基于关联注意力的生成对抗网络,生成对抗网络包括生成器网路、鉴别器网络;
步骤3、设置损失函数;
步骤4、利用步骤3构建的损失函数训练生成对抗网络;
步骤5、利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。
本发明的特点还在于:
步骤2具体包括以下步骤:
步骤2.1、构建生成器模块,生成器网络包括内容特征提取模块、风格特征提取模块及解码模块;
步骤2.2、构建鉴别器网络,鉴别器包括内容鉴别器和风格鉴别器。
内容特征提取模块用于将输入的源字体图像c压缩为内容特征向量fc:
fc=Ec(c) (1)。
风格特征提取模块包括5个卷积块、关联注意力模块,关联注意力模块包括上下文感知注意力模块和相似性特征注意力模块;风格特征提取模块的操作具体为:
a.先将风格参考集按照通道维度拼接后经过第一、二、三层卷积层得到特征图v1,再经过第四层卷积层、第五层卷积层分别得到特征图v2、v3;
b.将特征图v1、v2、v3分别输入到上下文感知注意力模块得到具有上下文信息、局部以及全局信息的风格变量fs1;
c.将特征图v1、内容特征向量fc输入到相似性特征注意力模块,输出整合所有局部风格信息的风格特征fs2;
d.最后,fs1和fs2相加融合得到最终的风格特征fs:
fs=fs1+fs2 (11)。
上下文感知注意力模块的操作具体为:
b1.首先通过自注意力层整合特征图{vr}r=1∶3上下文信息,得到特征向量hr:
hr=fa(vr) (2);
上式中,fa表示自注意力层;
b2.然后使用注意力机制给每个特征向量hr的区域打分,得到注意力分数ar;
b3.接着将注意力分数匹配到对应特征图vr上,得到三个具有上下文信息的特征向量{fr}r=1∶3:
fr=vrar (5);
b4.最后通过层级注意力网络为特征向量{fr}r=1∶3打分,得到隐变量z,进而得到风格特征fs1。
使用注意力机制给每个特征向量hr的区域打分,得到注意力分数ar具体包括:
先将特征向量hr输入到单层神经网络中得到ur:
ur=tanh(WChr+bc) (3);
上式中,WC、bc表示可学习参数,tanh表示激活函数Tanh;
再通过softmax层得到标准化的注意力分数ar:
通过层级注意力网络为特征向量{fr}r=1∶3打分,得到隐变量z,进而得到风格特征fs1具体包括:
首先为不同的特征向量匹配不同的权重:
w1,w2,w3=fl(ym) (6);
上式中,ym为将特征向量v3进行展平后的特征向量,将ym输入到fl(·)中,fl层是一个全连接层和softmax层,再对输出按照通道进行划分,得到权重w1、w2、w3;
其次,使用权重w1、w2、w3为不同特征向量加权,得到隐变量z:
通过隐变量z得到风格特征fs1:
相似性特征注意力模块的操作具体为:
c2.再将注意力图匹配到特征图v1上,得到最终的风格特征fs2:
上式中,h(·)表示通道数为256的1*1卷积单元。
解码模块的操作过程为:
将内容特征fc与风格特征fs在通道维度上拼接后输入解码模块Dec生成具有源图像语义信息和风格图像风格信息的目标字体图像x:
x=Dec(fc⊙fs) (12)。
鉴别器网络的具体操作为:将目标字体图像x和内容图像c在通道维度上拼接,输入到内容鉴别器中,判别拼接的图像是否与真值具有相同的内容;将生成的图像x和风格图像s在通道维度上拼接,输入到风格鉴别器中,判别拼接的图像是否与真值具有相同风格。
本发明的有益效果是:本发明的基于关联注意力的少样本文字风格迁移方法,使用关联注意力机制多角度融合不同风格特征,一方面关注特征上下文之间的联系,使模型学习到局部和全局风格特征,另一方面考虑内容编码器提取的内容特征和风格编码器提取的风格特征之间的关联性,更关注和内容图像相似的风格图像像素点;在多对多字体的风格迁移上表现良好,模型充分提取了风格信息和内容信息,生成的字符笔画更加完整,与真实值更加相近,在多域文字风格迁移中生成更高质量、更和谐的字符图像。
附图说明
图1是本发明基于关联注意力的少样本文字风格迁移方法中生成对抗网络的结构图;
图2是本发明基于关联注意力的少样本文字风格迁移方法中上下文感知注意力模块的结构图;
图3是本发明基于关联注意力的少样本文字风格迁移方法中相似性特征注意力模块;
图4是本发明基于关联注意力的少样本文字风格迁移方法在可见文字内容但未见文字风格数据集上测试结果;
图5是本发明基于关联注意力的少样本文字风格迁移方法在可见文字风格但未见文字内容数据集上测试结果。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
基于关联注意力的少样本文字风格迁移方法,包括以下步骤:
步骤1、构建训练数据集和测试数据集;训练数据集包括内容参考集、风格参考集;
步骤1.1、下载不同类型的TrueType字体文件,将每种字体文件生成若干张常用中文字符图像,得到训练集,并将其分为内容参考集、风格参考集;
本实施例中,下载780个不同类型的TrueType字体文件,网站地址:https://chinesefontdesign.com。每种字体文件使用程序生成981张常用中文字符图像,其中929张作为内容参考集,52张作为风格参考集。
步骤1.2、测试数据集包括训练时可见文字内容但未见文字风格的字符图像、训练时可见文字风格但未见的文字内容的字符图像。
a)具体的,可见文字内容但未见文字风格:下载11种训练集没有的TrueType字体文件,网站地址同上,每种字体文件使用程序生成981张常用中文字符图像,其中929张作为内容参考集,52张作为风格参考集;测试时随机选取11种字体的任意一种字体作为内容字体,任意一种字体作为风格字体(风格字体和内容字体不同),之后在内容字体的929张内容参考集中随机采样一张内容图像,风格字体的52张风格参考集中采样6张风格图像,生成具有内容图像的内容和风格图像的风格的目标字体图像。
b)可见文字风格但未见文字内容:在训练集的TrueType字体文件中随机挑选15种字体,使用程序生成81张中文字符图像,其中29张是未见过的中文字符作为内容参考集,52张与训练时相同内容的中文字符图像作为风格参考集。测试时随机选取15种字体的任意一种字体作为内容字体,任意一种字体作为风格字体(风格字体和内容字体不同),之后在内容字体的29张内容参考集中随机采样一张内容图像,风格字体的52张风格参考集中采样6张风格图像,生成具有内容图像的内容和风格图像的风格的目标字体图像。
步骤2、构建基于关联注意力的生成对抗网络,对抗网络结构如图1所示;生成对抗网络包括生成器网络、鉴别器网络;
步骤2.1、构建生成器网络,生成器网络包括内容特征提取模块,风格特征提取模块以及解码模块,生成器网络结构如表1所示;
表1生成器网络结构
内容特征提取模块,表示为Ec,包括依次设置的3个卷积块,每个卷积块包括卷积层、批量化归一层、Relu激活层;第一个卷积块的卷积层卷积核大小k=7,扫描步长s=1,填充像素p=0,第二、三个卷积块的卷积层卷积核大小k=3,扫描步长s=2,填充像素p=1。内容特征提取模块用于将输入的源字体图像c压缩为内容特征向量fc:
fc=Ec(c) (1)。
风格特征提取模块,表示为Es,包括5个卷积块、关联注意力模块,关联注意力模块包括上下文感知注意力模块和相似性特征注意力模块;上下文感知注意力模块包括单层神经网络、softtmax层、层级注意力网络;每个卷积块包括都卷积层、批量化归一层、Relu激活层,第一层卷积层卷积核大小k=7,扫描步长s=1,填充像素p=0,第二、三、四、五层卷积层卷积核大小k=3,扫描步长s=2,填充像素p=1。本实施例中,风格参考集s={s1,s2,s3,…,s6};风格特征提取模块的操作具体为:
a.先将风格参考集按照通道维度拼接后经过第一、二、三层卷积层得到特征图v1,再经过第四层卷积层、第五层卷积层分别得到特征图v2、v3,v1、v2、v3的感受野分别为13×13、21×21、37×37;
关联注意力模块有两个分支,一个是上下文感知注意力模块表示为Attcontext,关注上下文之间的联系。一个是相似性特征注意力模块表示为Attsim,关注风格特征和内容特征之间的联系。
b.再将不同感受野大小的特征图v1、v2、v3分别输入到上下文感知注意力模块Attcontext得到具有上下文信息、局部以及全局信息的风格变量fs1。具体如下文,上下文感知注意力模块结构如图2所示。
b1.首先通过自注意力层整合特征图{vr}r=1∶3上下文信息,得到特征向量hr:
hr=fa(vr) (2);
上式中,fa表示自注意力层,特征向量hr不仅包含其感受野的信息,还包含来自其他区域的上下文信息。
b2.然后使用注意力机制给每个特征向量hr的区域打分,得到注意力分数ar;
具体的,将特征向量hr输入到单层神经网络中得到ur:
ur=tanh(WChr+bc) (3);
上式中,WC、bc表示可学习参数,tanh表示激活函数Tanh;
通过softmax层得到标准化的注意力分数ar:
b3.接着将注意力分数匹配到对应特征图vr上,得到三个具有上下文信息的特征向量{fr}r=1∶3:
fr=vrar (5);
b4.最后通过层级注意力网络为特征向量{fr}r=1∶3打分,得到隐变量z,进而得到风格特征fs1;
具体的,首先为不同的特征向量匹配不同的权重:
w1,w2,w3=fl(ym) (6);
上式中,ym为将特征向量v3进行展平后的特征向量,将ym输入到fl(·)中,fl层是一个全连接层和softmax层,再对输出按照通道进行划分,得到权重w1、w2、w3;
其次,使用权重w1、w2、w3为不同特征向量加权,得到隐变量z:
通过隐变量z得到风格特征fs1:(由于风格特征提取模块输入六张图像,故生成了6个隐变量z,最终的风格特征fs是所有隐变量的平均值):
c.将v1、fc输入到相似性特征注意力模块Attsim,考虑风格特征和内容特征的内部关联,让网络自动关注与内容字符结构相似的风格像素点,最终输出一个整合了所有局部风格信息的风格特征fs2,具体步骤如下,相似性特征注意力模块Attsim具体结构如图3所示;
c2.再将注意力图匹配到特征图v1上,得到最终的风格特征fs2:
上式中,h(·)表示通道数为256的1*1卷积单元;
d.最后,fs1和fs2相加融合得到最终的风格特征fs:
fs=fs1+fs2 (11)。
解码模块表示为Dec,包括六个残差块、三个反卷积层;具体操作为:
将内容特征fc与风格特征fs在通道维度上拼接后输入解码模块Dec生成具有源图像语义信息和风格图像风格信息的目标字体图像x:
x=Dec(fc⊙fs) (12)。
步骤2.3、构建鉴别器网络,鉴别器包括内容鉴别器和风格鉴别器,如表2所示,LeakyReLU的坡度设置为0.2;
表2内容鉴别器和风格鉴别器网络结构。
内容鉴别器和风格鉴别器均包括5个卷积块;鉴别器网络的具体操作为:将目标字体图像x和内容图像c在通道维度上拼接,输入到内容鉴别器中,判别拼接的图像是否与真值具有相同的内容;将生成的图像x和风格图像s在通道维度上拼接,输入到风格鉴别器中,判别拼接的图像是否与真值具有相同风格。
步骤3、设置损失函数;
损失函数L包括生成器G的损失LG损失、判别器D的损失LD;
L=λsLstyleD+λcLcontentD+λsLstyleG+λcLcontentG+λ1L1 (13);
LG损失包括L1范数损失、风格生成损失LstyleG、内容生成损失LcontentG和分类损失Lcls:
LG=λsLstyleG+λcLcontentG+λ1L1 (14);
LstyleG=-Ex,s~p(x,s)[Dstyle(x,s)] (16);
LcontentG=-Ex,c~p(x,c)[Dcontent(x,c)] (17);
上式中,x表示生成的字体图像,c表示源字体图像,s表示风格字体图像,Dstyle表示风格鉴别器,Dcontent表示内容鉴别器;Dstyle(x,s)表示将生成图像和风格图像按通道维度拼接后输入风格鉴别器得到的概率矩阵,Dcontent(x,c),同理,Ex,s~p(x,s)[Dstyle(x,s)]表示对该输出的期望。
LD包括风格鉴别损失LstyleD和内容鉴别损失LcontentD;
LD=λsLstyleD+λcLcontentD (18);
上式中,λs、λc取值都为1,min||·||表示取最小值。
其中,c表示是源图像,即内容图像,Dcontent表示内容鉴别器。
步骤4、利用步骤3构建的损失函数训练生成对抗网络;
利用步骤3构建的损失函数进行网络训练,在更新生成器网络G时固定判别器D的参数,而更新判别器网络D时则固定生成器网络G的参数。设置训练迭代次数epoch=20,学习率lr=0.0002,使用Adam优化器。
步骤5、利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。
采用测试数据集对训练好的模型进行字体风格迁移测试,此时模型只有生成器G起作用,通过结构相似性(SSIM)、多层级结构相似性(MS-SSIM)、均方误差(MSE)和平均绝对误差(MAE)来评价模型的性能。
通过以上方式,本发明的基于关联注意力的少样本文字风格迁移方法,使用关联注意力机制多角度融合不同风格特征,一方面关注特征上下文之间的联系,使模型学习到局部和全局风格特征,另一方面考虑内容编码器提取的内容特征和风格编码器提取的风格特征之间的关联性,更关注和内容图像相似的风格图像像素点;在多对多字体的风格迁移上表现良好,模型充分提取了风格信息和内容信息,生成的字符笔画更加完整,与真实值更加相近,在多域文字风格迁移中生成更高质量、更和谐的字符图像。
实例
测试数据集一种包括11种可见文字内容但未见文字风格的字符图像集,每类有929张中文字符作为内容参考集,52张中文字符作为风格参考集。另一种是可见文字风格但未见文字内容的字符图像集。在测试时,任意选取两种字体分别作为源字体和风格字体,进行定性和定量评估。以下对比方法有:FTransGAN,FConGAN(本发明的方法)。
表3定量评估
结构相似性(SSIM)、多尺度结构相似性(MS-SSIM),都是衡量两幅图像相似度的指标,值越大表明生成图像质量越高,与真实图像越相似。平均绝对误差(MAE)和均方误差(MSE)损失是指生成图像和真实图像之间对应的像素损失,值越低表示生成图像质量越高。从表3来看,本方法定量指标在可见文字内容但未见文字风格的图片上有明显的提升,在可见文字风格但未见的文字内容图片上有一定的提升。
定性评估结果如图4和图5,从图中可以看出,本发明的方法生成的字符内容特征更充分,笔画更加完整、流畅,同时与真值更加相似。
Claims (10)
1.基于关联注意力的少样本文字风格迁移方法,其特征在于,包括以下步骤:
步骤1、构建训练数据集和测试数据集;所述训练数据集包括内容参考集、风格参考集;
步骤2、构建基于关联注意力的生成对抗网络,所述生成对抗网络包括生成器网路、鉴别器网络;
步骤3、设置损失函数;
步骤4、利用步骤3构建的损失函数训练所述生成对抗网络;
步骤5、利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。
2.根据权利要求1所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1、构建生成器模块,生成器网络包括内容特征提取模块、风格特征提取模块及解码模块;
步骤2.2、构建鉴别器网络,鉴别器包括内容鉴别器和风格鉴别器。
3.根据权利要求2所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,所述内容特征提取模块用于将输入的源字体图像c压缩为内容特征向量fc:
fc=Ec(c) (1)。
4.根据权利要求3所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,所述风格特征提取模块包括5个卷积块、关联注意力模块,所述关联注意力模块包括上下文感知注意力模块和相似性特征注意力模块;所述风格特征提取模块的操作具体为:
a.先将风格参考集按照通道维度拼接后经过第一、二、三层卷积层得到特征图v1,再经过第四层卷积层、第五层卷积层分别得到特征图v2、v3;
b.将特征图v1、v2、v3分别输入到上下文感知注意力模块得到具有上下文信息、局部以及全局信息的风格变量fs1;
c.将所述特征图v1、内容特征向量fc输入到相似性特征注意力模块,输出整合所有局部风格信息的风格特征fs2;
d.最后,fs1和fs2相加融合得到最终的风格特征fs:
fs=fs1+fs2 (11)。
5.根据权利要求4所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,上下文感知注意力模块的操作具体为:
b1.首先通过自注意力层整合特征图{vr}r=1:3上下文信息,得到特征向量hr:
hr=fa(vr) (2);
上式中,fa表示自注意力层;
b2.然后使用注意力机制给所述每个特征向量hr的区域打分,得到注意力分数ar;
b3.接着将所述注意力分数匹配到对应特征图vr上,得到三个具有上下文信息的特征向量{fr}r=1:3:
fr=vrar (5);
b4.最后通过层级注意力网络为所述特征向量{fr}r=1:3打分,得到隐变量z,进而得到风格特征fs1。
9.根据权利要求4所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,解码模块的操作过程为:
将内容特征图fc与风格特征fs在通道维度上拼接后输入解码模块Dec生成具有源图像语义信息和风格图像风格信息的目标字体图像x:
x=Dec(fc⊙fs) (12)。
10.根据权利要求4所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,所述鉴别器网络的具体操作为:将所述目标字体图像x和内容图像c在通道维度上拼接,输入到内容鉴别器中,判别拼接的图像是否与真值具有相同的内容;将生成的图像x和风格图像s在通道维度上拼接,输入到风格鉴别器中,判别拼接的图像是否与真值具有相同风格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210377959.1A CN114742014B (zh) | 2022-04-12 | 2022-04-12 | 基于关联注意力的少样本文字风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210377959.1A CN114742014B (zh) | 2022-04-12 | 2022-04-12 | 基于关联注意力的少样本文字风格迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114742014A true CN114742014A (zh) | 2022-07-12 |
CN114742014B CN114742014B (zh) | 2024-08-02 |
Family
ID=82281811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210377959.1A Active CN114742014B (zh) | 2022-04-12 | 2022-04-12 | 基于关联注意力的少样本文字风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114742014B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221842A (zh) * | 2022-08-31 | 2022-10-21 | 内江师范学院 | 一种基于小样本数据集的字体风格迁移方法、系统及设备 |
CN118036555A (zh) * | 2024-04-11 | 2024-05-14 | 江西师范大学 | 基于骨架式转移和结构对比学习的少样本字体生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140316768A1 (en) * | 2012-12-14 | 2014-10-23 | Pramod Khandekar | Systems and methods for natural language processing |
CN110148318A (zh) * | 2019-03-07 | 2019-08-20 | 上海晨鸟信息科技有限公司 | 一种数字助教系统、信息交互方法和信息处理方法 |
CN110232652A (zh) * | 2019-05-27 | 2019-09-13 | 珠海格力电器股份有限公司 | 图像处理引擎处理方法、用于终端的图像处理方法、终端 |
CN113393370A (zh) * | 2021-06-02 | 2021-09-14 | 西北大学 | 中国书法文字图像风格迁移的方法、系统、智能终端 |
CN113555000A (zh) * | 2020-12-30 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 声学特征转换及模型训练方法、装置、设备、介质 |
-
2022
- 2022-04-12 CN CN202210377959.1A patent/CN114742014B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140316768A1 (en) * | 2012-12-14 | 2014-10-23 | Pramod Khandekar | Systems and methods for natural language processing |
CN110148318A (zh) * | 2019-03-07 | 2019-08-20 | 上海晨鸟信息科技有限公司 | 一种数字助教系统、信息交互方法和信息处理方法 |
CN110232652A (zh) * | 2019-05-27 | 2019-09-13 | 珠海格力电器股份有限公司 | 图像处理引擎处理方法、用于终端的图像处理方法、终端 |
CN113555000A (zh) * | 2020-12-30 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 声学特征转换及模型训练方法、装置、设备、介质 |
CN113393370A (zh) * | 2021-06-02 | 2021-09-14 | 西北大学 | 中国书法文字图像风格迁移的方法、系统、智能终端 |
Non-Patent Citations (3)
Title |
---|
LI YU MEI等: "layer similarity guiding few-shot chinese style transfer", THE VISUAL COMPUTER, 7 June 2023 (2023-06-07), pages 2265 - 2278 * |
李玉梅: "少样本字体风格迁移算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 3, 15 March 2024 (2024-03-15), pages 138 - 967 * |
马春光;郭瑶瑶;武朋;刘海波;: "生成式对抗网络图像增强研究综述", 信息网络安全, no. 05, 10 May 2019 (2019-05-10), pages 10 - 21 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221842A (zh) * | 2022-08-31 | 2022-10-21 | 内江师范学院 | 一种基于小样本数据集的字体风格迁移方法、系统及设备 |
CN115221842B (zh) * | 2022-08-31 | 2022-12-20 | 内江师范学院 | 一种基于小样本数据集的字体风格迁移方法、系统及设备 |
CN118036555A (zh) * | 2024-04-11 | 2024-05-14 | 江西师范大学 | 基于骨架式转移和结构对比学习的少样本字体生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114742014B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN110175251A (zh) | 基于语义对抗网络的零样本草图检索方法 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN114742014A (zh) | 基于关联注意力的少样本文字风格迁移方法 | |
CN114610900A (zh) | 知识图谱补全方法及系统 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN113449787B (zh) | 基于汉字笔画结构的字体库补全方法及系统 | |
CN112163401A (zh) | 基于压缩与激励的gan网络的汉字字体生成方法 | |
CN112017255A (zh) | 一种根据食谱生成食物图像的方法 | |
CN107967497A (zh) | 基于卷积神经网络和极限学习机的手写体识别方法 | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN118036555B (zh) | 基于骨架式转移和结构对比学习的少样本字体生成方法 | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
Gui et al. | Zero-shot generation of training data with denoising diffusion probabilistic model for handwritten Chinese character recognition | |
Xu et al. | A novel image feature extraction algorithm based on the fusion AutoEncoder and CNN | |
Zeng et al. | An unsupervised font style transfer model based on generative adversarial networks | |
CN114880307A (zh) | 一种开放教育领域知识的结构化建模方法 | |
JP7549706B2 (ja) | データ拡張システム、データ拡張方法、及びプログラム | |
US12100082B2 (en) | System and method of cross-modulated dense local fusion for few-shot image generation | |
CN114330535B (zh) | 一种基于支持向量正则化字典对学习的模式分类方法 | |
CN113191381B (zh) | 一种基于交叉知识的图像零次分类模型及其分类方法 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 | |
CN114840680A (zh) | 一种实体关系联合抽取方法、装置、存储介质及终端 | |
CN113610080A (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Lin Guangfeng Inventor after: Li Yumei Inventor after: He Menglan Inventor after: Wei Wenchao Inventor before: Li Yumei Inventor before: Lin Guangfeng Inventor before: He Menglan Inventor before: Wei Wenchao |
|
GR01 | Patent grant | ||
GR01 | Patent grant |