CN114742014A - 基于关联注意力的少样本文字风格迁移方法 - Google Patents

基于关联注意力的少样本文字风格迁移方法 Download PDF

Info

Publication number
CN114742014A
CN114742014A CN202210377959.1A CN202210377959A CN114742014A CN 114742014 A CN114742014 A CN 114742014A CN 202210377959 A CN202210377959 A CN 202210377959A CN 114742014 A CN114742014 A CN 114742014A
Authority
CN
China
Prior art keywords
style
attention
content
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210377959.1A
Other languages
English (en)
Other versions
CN114742014B (zh
Inventor
李玉梅
蔺广逢
贺梦兰
魏文超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202210377959.1A priority Critical patent/CN114742014B/zh
Publication of CN114742014A publication Critical patent/CN114742014A/zh
Application granted granted Critical
Publication of CN114742014B publication Critical patent/CN114742014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明公开了基于关联注意力的少样本文字风格迁移方法,包括:构建训练数据集和测试数据集;训练数据集包括内容参考集、风格参考集;构建基于关联注意力的生成对抗网络,生成对抗网络包括生成器网路、鉴别器网络;设置损失函数;利用构建的损失函数训练生成对抗网络;利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。在多对多字体的风格迁移上表现良好,模型充分提取了风格信息和内容信息,生成的字符笔画更加完整,与真实值更加相近,在多域文字风格迁移中生成更高质量、更和谐的字符图像。

Description

基于关联注意力的少样本文字风格迁移方法
技术领域
本发明属于文字生成方法技术领域,涉及一种基于关联注意力的少样本文字风格迁移方法。
背景技术
在视觉设计中,字体的样式十分重要,不同的字体为视觉设计带来的氛围感完全不同。然而,设计一种新的字体是一项费时费力的工作,不仅需要考虑诸多因素,如笔画、纹理、颜色等,而且,所有字符都需要保持一致的风格和适当的大小。创作字库从画稿到上线,是设计师团队通力合作、一笔一画调整修改而来,一套适合推广、商用的字体需要2-3年,其中绝大部分的时间用在从基本字形向上千字形的扩充、拼组、调试上,且这部分工作由较高素质的字体设计师完成,是一项重复性、严谨的工作,另外字体设计师花费极大的精力用在遵循设定好的框架、规则中去完成工作,没有创作的空间。通常字体设计师为拉丁字母设计一种字体通常几周或者几个月的时间,对于某些语言(如汉语和朝鲜语),他们包含大量字符(汉语最多50000个字,朝鲜语最多11172个字符),所以如何更高效的设计一套风格化字体成为一个急需解决的任务。
随着深度学习(Deep learning)的兴起,无需人工干预的字体自动生成成为可能。字体自动生成可视为字体的风格迁移,旨在通过学习不同字体域之间的映射,保证字体语义内容不变的同时对字体的字形作相应的转换。这极大的缩短了字库的制作时间,降低了制作成本,极大满足文化教育、娱乐传媒和商业等领域的用字需求。尽管基于深度学习的文字风格迁移有了一定的发展,但这些方法在许多实际场景中的应用是不切实际的,如生成手写字库时,收集这类训练样本困难且耗时巨大。而少样本文字风格迁移利用少量的风格参考集生成一套完整的字库,更能符合实际应用要求,具有更高的应用价值,另一方面,大多数多样本任务无法生成训练时未见过的风格字体,当需要对训练时未见过的字体进行风格迁移,重新训练模型是极其费时的。
在少样本文字风格迁移问题中,我们希望通过使用少量风格参考集去生成新的字形,并且不需要额外的微调,例如在测试时仅通过六个风格参考图像生成一套完整风格化字库。为了在少量风格参考集中充分学习到风格特征,当前的主流方法是特征分离引导文字风格迁移,分别使用内容编码器和风格编码器学习内容和风格特征。为了提高字符的生成质量,一些方法为生成模型添加先验信息,将复杂的字形拆解成部件或笔画,还有一些方法通过使用注意力机制关注风格特征的上下文注意力加强特征的提取。但是这些方法未考虑内容编码器提取的内容特征和风格编码器提取的风格特征之间的关联性,这会导致多域字体之间的风格迁移结果较差。
发明内容
本发明的目的是提供一种基于关联注意力的少样本文字风格迁移方法,解决了现有技术中存在的现有字体风格迁移方法的风格特征学习不充分导致风格迁移结果较差的问题。
本发明所采用的技术方案是,基于关联注意力的少样本文字风格迁移方法,包括以下步骤:
步骤1、构建训练数据集和测试数据集;训练数据集包括内容参考集、风格参考集;
步骤2、构建基于关联注意力的生成对抗网络,生成对抗网络包括生成器网路、鉴别器网络;
步骤3、设置损失函数;
步骤4、利用步骤3构建的损失函数训练生成对抗网络;
步骤5、利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。
本发明的特点还在于:
步骤2具体包括以下步骤:
步骤2.1、构建生成器模块,生成器网络包括内容特征提取模块、风格特征提取模块及解码模块;
步骤2.2、构建鉴别器网络,鉴别器包括内容鉴别器和风格鉴别器。
内容特征提取模块用于将输入的源字体图像c压缩为内容特征向量fc
fc=Ec(c) (1)。
风格特征提取模块包括5个卷积块、关联注意力模块,关联注意力模块包括上下文感知注意力模块和相似性特征注意力模块;风格特征提取模块的操作具体为:
a.先将风格参考集按照通道维度拼接后经过第一、二、三层卷积层得到特征图v1,再经过第四层卷积层、第五层卷积层分别得到特征图v2、v3
b.将特征图v1、v2、v3分别输入到上下文感知注意力模块得到具有上下文信息、局部以及全局信息的风格变量fs1
c.将特征图v1、内容特征向量fc输入到相似性特征注意力模块,输出整合所有局部风格信息的风格特征fs2
d.最后,fs1和fs2相加融合得到最终的风格特征fs
fs=fs1+fs2 (11)。
上下文感知注意力模块的操作具体为:
b1.首先通过自注意力层整合特征图{vr}r=1∶3上下文信息,得到特征向量hr
hr=fa(vr) (2);
上式中,fa表示自注意力层;
b2.然后使用注意力机制给每个特征向量hr的区域打分,得到注意力分数ar
b3.接着将注意力分数匹配到对应特征图vr上,得到三个具有上下文信息的特征向量{fr}r=1∶3
fr=vrar (5);
b4.最后通过层级注意力网络为特征向量{fr}r=1∶3打分,得到隐变量z,进而得到风格特征fs1
使用注意力机制给每个特征向量hr的区域打分,得到注意力分数ar具体包括:
先将特征向量hr输入到单层神经网络中得到ur
ur=tanh(WChr+bc) (3);
上式中,WC、bc表示可学习参数,tanh表示激活函数Tanh;
再通过softmax层得到标准化的注意力分数ar
Figure BDA0003591542980000051
上式中,uc是随机初始化向量,
Figure BDA0003591542980000052
表示向量ur的转置。
通过层级注意力网络为特征向量{fr}r=1∶3打分,得到隐变量z,进而得到风格特征fs1具体包括:
首先为不同的特征向量匹配不同的权重:
w1,w2,w3=fl(ym) (6);
上式中,ym为将特征向量v3进行展平后的特征向量,将ym输入到fl(·)中,fl层是一个全连接层和softmax层,再对输出按照通道进行划分,得到权重w1、w2、w3
其次,使用权重w1、w2、w3为不同特征向量加权,得到隐变量z:
Figure BDA0003591542980000061
通过隐变量z得到风格特征fs1
Figure BDA0003591542980000062
相似性特征注意力模块的操作具体为:
c1.首先计算fc和v1注意力权重
Figure BDA0003591542980000063
Figure BDA0003591542980000064
上式中,
Figure BDA0003591542980000065
表示v1在通道下的均值方差标准化,
Figure BDA0003591542980000066
同理。f(·)和g(·)分别表示通道数为256的1*1卷积单元,
Figure BDA0003591542980000067
表示对
Figure BDA0003591542980000068
进行转置,softmax(·)是一个softmax层;
c2.再将注意力图匹配到特征图v1上,得到最终的风格特征fs2
Figure BDA0003591542980000069
上式中,h(·)表示通道数为256的1*1卷积单元。
解码模块的操作过程为:
将内容特征fc与风格特征fs在通道维度上拼接后输入解码模块Dec生成具有源图像语义信息和风格图像风格信息的目标字体图像x:
x=Dec(fc⊙fs) (12)。
鉴别器网络的具体操作为:将目标字体图像x和内容图像c在通道维度上拼接,输入到内容鉴别器中,判别拼接的图像是否与真值具有相同的内容;将生成的图像x和风格图像s在通道维度上拼接,输入到风格鉴别器中,判别拼接的图像是否与真值具有相同风格。
本发明的有益效果是:本发明的基于关联注意力的少样本文字风格迁移方法,使用关联注意力机制多角度融合不同风格特征,一方面关注特征上下文之间的联系,使模型学习到局部和全局风格特征,另一方面考虑内容编码器提取的内容特征和风格编码器提取的风格特征之间的关联性,更关注和内容图像相似的风格图像像素点;在多对多字体的风格迁移上表现良好,模型充分提取了风格信息和内容信息,生成的字符笔画更加完整,与真实值更加相近,在多域文字风格迁移中生成更高质量、更和谐的字符图像。
附图说明
图1是本发明基于关联注意力的少样本文字风格迁移方法中生成对抗网络的结构图;
图2是本发明基于关联注意力的少样本文字风格迁移方法中上下文感知注意力模块的结构图;
图3是本发明基于关联注意力的少样本文字风格迁移方法中相似性特征注意力模块;
图4是本发明基于关联注意力的少样本文字风格迁移方法在可见文字内容但未见文字风格数据集上测试结果;
图5是本发明基于关联注意力的少样本文字风格迁移方法在可见文字风格但未见文字内容数据集上测试结果。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
基于关联注意力的少样本文字风格迁移方法,包括以下步骤:
步骤1、构建训练数据集和测试数据集;训练数据集包括内容参考集、风格参考集;
步骤1.1、下载不同类型的TrueType字体文件,将每种字体文件生成若干张常用中文字符图像,得到训练集,并将其分为内容参考集、风格参考集;
本实施例中,下载780个不同类型的TrueType字体文件,网站地址:https://chinesefontdesign.com。每种字体文件使用程序生成981张常用中文字符图像,其中929张作为内容参考集,52张作为风格参考集。
步骤1.2、测试数据集包括训练时可见文字内容但未见文字风格的字符图像、训练时可见文字风格但未见的文字内容的字符图像。
a)具体的,可见文字内容但未见文字风格:下载11种训练集没有的TrueType字体文件,网站地址同上,每种字体文件使用程序生成981张常用中文字符图像,其中929张作为内容参考集,52张作为风格参考集;测试时随机选取11种字体的任意一种字体作为内容字体,任意一种字体作为风格字体(风格字体和内容字体不同),之后在内容字体的929张内容参考集中随机采样一张内容图像,风格字体的52张风格参考集中采样6张风格图像,生成具有内容图像的内容和风格图像的风格的目标字体图像。
b)可见文字风格但未见文字内容:在训练集的TrueType字体文件中随机挑选15种字体,使用程序生成81张中文字符图像,其中29张是未见过的中文字符作为内容参考集,52张与训练时相同内容的中文字符图像作为风格参考集。测试时随机选取15种字体的任意一种字体作为内容字体,任意一种字体作为风格字体(风格字体和内容字体不同),之后在内容字体的29张内容参考集中随机采样一张内容图像,风格字体的52张风格参考集中采样6张风格图像,生成具有内容图像的内容和风格图像的风格的目标字体图像。
步骤2、构建基于关联注意力的生成对抗网络,对抗网络结构如图1所示;生成对抗网络包括生成器网络、鉴别器网络;
步骤2.1、构建生成器网络,生成器网络包括内容特征提取模块,风格特征提取模块以及解码模块,生成器网络结构如表1所示;
表1生成器网络结构
Figure BDA0003591542980000091
内容特征提取模块,表示为Ec,包括依次设置的3个卷积块,每个卷积块包括卷积层、批量化归一层、Relu激活层;第一个卷积块的卷积层卷积核大小k=7,扫描步长s=1,填充像素p=0,第二、三个卷积块的卷积层卷积核大小k=3,扫描步长s=2,填充像素p=1。内容特征提取模块用于将输入的源字体图像c压缩为内容特征向量fc
fc=Ec(c) (1)。
风格特征提取模块,表示为Es,包括5个卷积块、关联注意力模块,关联注意力模块包括上下文感知注意力模块和相似性特征注意力模块;上下文感知注意力模块包括单层神经网络、softtmax层、层级注意力网络;每个卷积块包括都卷积层、批量化归一层、Relu激活层,第一层卷积层卷积核大小k=7,扫描步长s=1,填充像素p=0,第二、三、四、五层卷积层卷积核大小k=3,扫描步长s=2,填充像素p=1。本实施例中,风格参考集s={s1,s2,s3,…,s6};风格特征提取模块的操作具体为:
a.先将风格参考集按照通道维度拼接后经过第一、二、三层卷积层得到特征图v1,再经过第四层卷积层、第五层卷积层分别得到特征图v2、v3,v1、v2、v3的感受野分别为13×13、21×21、37×37;
关联注意力模块有两个分支,一个是上下文感知注意力模块表示为Attcontext,关注上下文之间的联系。一个是相似性特征注意力模块表示为Attsim,关注风格特征和内容特征之间的联系。
b.再将不同感受野大小的特征图v1、v2、v3分别输入到上下文感知注意力模块Attcontext得到具有上下文信息、局部以及全局信息的风格变量fs1。具体如下文,上下文感知注意力模块结构如图2所示。
b1.首先通过自注意力层整合特征图{vr}r=1∶3上下文信息,得到特征向量hr
hr=fa(vr) (2);
上式中,fa表示自注意力层,特征向量hr不仅包含其感受野的信息,还包含来自其他区域的上下文信息。
b2.然后使用注意力机制给每个特征向量hr的区域打分,得到注意力分数ar
具体的,将特征向量hr输入到单层神经网络中得到ur
ur=tanh(WChr+bc) (3);
上式中,WC、bc表示可学习参数,tanh表示激活函数Tanh;
通过softmax层得到标准化的注意力分数ar
Figure BDA0003591542980000111
上式中,uc是随机初始化向量,
Figure BDA0003591542980000112
Figure BDA0003591542980000113
表示向量ur的转置;
b3.接着将注意力分数匹配到对应特征图vr上,得到三个具有上下文信息的特征向量{fr}r=1∶3
fr=vrar (5);
b4.最后通过层级注意力网络为特征向量{fr}r=1∶3打分,得到隐变量z,进而得到风格特征fs1
具体的,首先为不同的特征向量匹配不同的权重:
w1,w2,w3=fl(ym) (6);
上式中,ym为将特征向量v3进行展平后的特征向量,将ym输入到fl(·)中,fl层是一个全连接层和softmax层,再对输出按照通道进行划分,得到权重w1、w2、w3
其次,使用权重w1、w2、w3为不同特征向量加权,得到隐变量z:
Figure BDA0003591542980000121
通过隐变量z得到风格特征fs1:(由于风格特征提取模块输入六张图像,故生成了6个隐变量z,最终的风格特征fs是所有隐变量的平均值):
Figure BDA0003591542980000122
c.将v1、fc输入到相似性特征注意力模块Attsim,考虑风格特征和内容特征的内部关联,让网络自动关注与内容字符结构相似的风格像素点,最终输出一个整合了所有局部风格信息的风格特征fs2,具体步骤如下,相似性特征注意力模块Attsim具体结构如图3所示;
c1.首先计算fc和v1注意力权重
Figure BDA0003591542980000123
Figure BDA0003591542980000124
上式中,
Figure BDA0003591542980000131
表示v1在通道下的均值方差标准化,
Figure BDA0003591542980000132
司理。f(·)和g(·)分别表示通道数为256的1*1卷积单元,
Figure BDA0003591542980000133
表示对
Figure BDA0003591542980000134
进行转置,softmax(·)是一个softmax层;
c2.再将注意力图匹配到特征图v1上,得到最终的风格特征fs2
Figure BDA0003591542980000135
上式中,h(·)表示通道数为256的1*1卷积单元;
d.最后,fs1和fs2相加融合得到最终的风格特征fs
fs=fs1+fs2 (11)。
解码模块表示为Dec,包括六个残差块、三个反卷积层;具体操作为:
将内容特征fc与风格特征fs在通道维度上拼接后输入解码模块Dec生成具有源图像语义信息和风格图像风格信息的目标字体图像x:
x=Dec(fc⊙fs) (12)。
步骤2.3、构建鉴别器网络,鉴别器包括内容鉴别器和风格鉴别器,如表2所示,LeakyReLU的坡度设置为0.2;
表2内容鉴别器和风格鉴别器网络结构。
Figure BDA0003591542980000136
Figure BDA0003591542980000141
内容鉴别器和风格鉴别器均包括5个卷积块;鉴别器网络的具体操作为:将目标字体图像x和内容图像c在通道维度上拼接,输入到内容鉴别器中,判别拼接的图像是否与真值具有相同的内容;将生成的图像x和风格图像s在通道维度上拼接,输入到风格鉴别器中,判别拼接的图像是否与真值具有相同风格。
步骤3、设置损失函数;
损失函数L包括生成器G的损失LG损失、判别器D的损失LD
L=λsLstyleDcLcontentDsLstyleGcLcontentG1L1 (13);
LG损失包括L1范数损失、风格生成损失LstyleG、内容生成损失LcontentG和分类损失Lcls
LG=λsLstyleGcLcontentG1L1 (14);
L1为生成的图像x和真实图像
Figure BDA0003591542980000142
之间的像素误差:
Figure BDA0003591542980000143
上式中,x范数损失表示生成的字体图像,
Figure BDA0003591542980000144
表示真实的字体图像,||·||1表示L1范数;
LstyleG=-Ex,s~p(x,s)[Dstyle(x,s)] (16);
LcontentG=-Ex,c~p(x,c)[Dcontent(x,c)] (17);
上式中,x表示生成的字体图像,c表示源字体图像,s表示风格字体图像,Dstyle表示风格鉴别器,Dcontent表示内容鉴别器;Dstyle(x,s)表示将生成图像和风格图像按通道维度拼接后输入风格鉴别器得到的概率矩阵,Dcontent(x,c),同理,Ex,s~p(x,s)[Dstyle(x,s)]表示对该输出的期望。
LD包括风格鉴别损失LstyleD和内容鉴别损失LcontentD
LD=λsLstyleDcLcontentD (18);
上式中,λs、λc取值都为1,min||·||表示取最小值。
Figure BDA0003591542980000151
上式中,min||·||表示取最小值,
Figure BDA0003591542980000152
表示真实字符图像,x表示生成的字符图像,s表示风格图像,
Figure BDA0003591542980000153
表示将真值和风格图像按通道维度拼接后输入风格鉴别器后得到的概率矩阵,Dstyle(x,s)同理;
Figure BDA0003591542980000154
其中,c表示是源图像,即内容图像,Dcontent表示内容鉴别器。
步骤4、利用步骤3构建的损失函数训练生成对抗网络;
利用步骤3构建的损失函数进行网络训练,在更新生成器网络G时固定判别器D的参数,而更新判别器网络D时则固定生成器网络G的参数。设置训练迭代次数epoch=20,学习率lr=0.0002,使用Adam优化器。
步骤5、利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。
采用测试数据集对训练好的模型进行字体风格迁移测试,此时模型只有生成器G起作用,通过结构相似性(SSIM)、多层级结构相似性(MS-SSIM)、均方误差(MSE)和平均绝对误差(MAE)来评价模型的性能。
通过以上方式,本发明的基于关联注意力的少样本文字风格迁移方法,使用关联注意力机制多角度融合不同风格特征,一方面关注特征上下文之间的联系,使模型学习到局部和全局风格特征,另一方面考虑内容编码器提取的内容特征和风格编码器提取的风格特征之间的关联性,更关注和内容图像相似的风格图像像素点;在多对多字体的风格迁移上表现良好,模型充分提取了风格信息和内容信息,生成的字符笔画更加完整,与真实值更加相近,在多域文字风格迁移中生成更高质量、更和谐的字符图像。
实例
测试数据集一种包括11种可见文字内容但未见文字风格的字符图像集,每类有929张中文字符作为内容参考集,52张中文字符作为风格参考集。另一种是可见文字风格但未见文字内容的字符图像集。在测试时,任意选取两种字体分别作为源字体和风格字体,进行定性和定量评估。以下对比方法有:FTransGAN,FConGAN(本发明的方法)。
表3定量评估
Figure BDA0003591542980000161
Figure BDA0003591542980000171
结构相似性(SSIM)、多尺度结构相似性(MS-SSIM),都是衡量两幅图像相似度的指标,值越大表明生成图像质量越高,与真实图像越相似。平均绝对误差(MAE)和均方误差(MSE)损失是指生成图像和真实图像之间对应的像素损失,值越低表示生成图像质量越高。从表3来看,本方法定量指标在可见文字内容但未见文字风格的图片上有明显的提升,在可见文字风格但未见的文字内容图片上有一定的提升。
定性评估结果如图4和图5,从图中可以看出,本发明的方法生成的字符内容特征更充分,笔画更加完整、流畅,同时与真值更加相似。

Claims (10)

1.基于关联注意力的少样本文字风格迁移方法,其特征在于,包括以下步骤:
步骤1、构建训练数据集和测试数据集;所述训练数据集包括内容参考集、风格参考集;
步骤2、构建基于关联注意力的生成对抗网络,所述生成对抗网络包括生成器网路、鉴别器网络;
步骤3、设置损失函数;
步骤4、利用步骤3构建的损失函数训练所述生成对抗网络;
步骤5、利用测试数据集测试训练完的生成器网络,完成少样本文字风格迁移。
2.根据权利要求1所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1、构建生成器模块,生成器网络包括内容特征提取模块、风格特征提取模块及解码模块;
步骤2.2、构建鉴别器网络,鉴别器包括内容鉴别器和风格鉴别器。
3.根据权利要求2所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,所述内容特征提取模块用于将输入的源字体图像c压缩为内容特征向量fc
fc=Ec(c) (1)。
4.根据权利要求3所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,所述风格特征提取模块包括5个卷积块、关联注意力模块,所述关联注意力模块包括上下文感知注意力模块和相似性特征注意力模块;所述风格特征提取模块的操作具体为:
a.先将风格参考集按照通道维度拼接后经过第一、二、三层卷积层得到特征图v1,再经过第四层卷积层、第五层卷积层分别得到特征图v2、v3
b.将特征图v1、v2、v3分别输入到上下文感知注意力模块得到具有上下文信息、局部以及全局信息的风格变量fs1
c.将所述特征图v1、内容特征向量fc输入到相似性特征注意力模块,输出整合所有局部风格信息的风格特征fs2
d.最后,fs1和fs2相加融合得到最终的风格特征fs
fs=fs1+fs2 (11)。
5.根据权利要求4所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,上下文感知注意力模块的操作具体为:
b1.首先通过自注意力层整合特征图{vr}r=1:3上下文信息,得到特征向量hr
hr=fa(vr) (2);
上式中,fa表示自注意力层;
b2.然后使用注意力机制给所述每个特征向量hr的区域打分,得到注意力分数ar
b3.接着将所述注意力分数匹配到对应特征图vr上,得到三个具有上下文信息的特征向量{fr}r=1:3
fr=vrar (5);
b4.最后通过层级注意力网络为所述特征向量{fr}r=1:3打分,得到隐变量z,进而得到风格特征fs1
6.根据权利要求5所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,使用注意力机制给所述每个特征向量hr的区域打分,得到注意力分数ar具体包括:
先将所述特征向量hr输入到单层神经网络中得到ur
ur=tanh(WChr+bc) (3);
上式中,WC、bc表示可学习参数,tanh表示激活函数Tanh;
再通过softmax层得到标准化的注意力分数ar
Figure FDA0003591542970000031
上式中,uc是随机初始化向量,
Figure FDA0003591542970000032
表示向量ur的转置。
7.根据权利要求6所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,通过层级注意力网络为所述特征向量{fr}r=1:3打分,得到隐变量z,进而得到风格特征fs1具体包括:
首先为不同的特征向量匹配不同的权重:
w1,w2,w3=fl(ym) (6);
上式中,ym为将特征向量v3进行展平后的特征向量,将ym输入到fl(·)中,fl层是一个全连接层和softmax层,再对输出按照通道进行划分,得到权重w1、w2、w3
其次,使用权重w1、w2、w3为不同特征向量加权,得到隐变量z:
Figure FDA0003591542970000041
通过隐变量z得到风格特征fs1
Figure FDA0003591542970000042
8.根据权利要求4所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,所述相似性特征注意力模块的操作具体为:
c1.首先计算fc和v1注意力权重
Figure FDA0003591542970000043
Figure FDA0003591542970000044
上式中,
Figure FDA0003591542970000051
表示v1在通道下的均值方差标准化,
Figure FDA0003591542970000052
同理。f(·)和g(·)分别表示通道数为256的1*1卷积单元,
Figure FDA0003591542970000053
表示对
Figure FDA0003591542970000054
进行转置,softmax(·)是一个softmax层;
c2.再将注意力图匹配到特征图v1上,得到最终的风格特征fs2
Figure FDA0003591542970000055
上式中,h(·)表示通道数为256的1*1卷积单元。
9.根据权利要求4所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,解码模块的操作过程为:
将内容特征图fc与风格特征fs在通道维度上拼接后输入解码模块Dec生成具有源图像语义信息和风格图像风格信息的目标字体图像x:
x=Dec(fc⊙fs) (12)。
10.根据权利要求4所述的基于关联注意力的少样本文字风格迁移方法,其特征在于,所述鉴别器网络的具体操作为:将所述目标字体图像x和内容图像c在通道维度上拼接,输入到内容鉴别器中,判别拼接的图像是否与真值具有相同的内容;将生成的图像x和风格图像s在通道维度上拼接,输入到风格鉴别器中,判别拼接的图像是否与真值具有相同风格。
CN202210377959.1A 2022-04-12 2022-04-12 基于关联注意力的少样本文字风格迁移方法 Active CN114742014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210377959.1A CN114742014B (zh) 2022-04-12 2022-04-12 基于关联注意力的少样本文字风格迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210377959.1A CN114742014B (zh) 2022-04-12 2022-04-12 基于关联注意力的少样本文字风格迁移方法

Publications (2)

Publication Number Publication Date
CN114742014A true CN114742014A (zh) 2022-07-12
CN114742014B CN114742014B (zh) 2024-08-02

Family

ID=82281811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210377959.1A Active CN114742014B (zh) 2022-04-12 2022-04-12 基于关联注意力的少样本文字风格迁移方法

Country Status (1)

Country Link
CN (1) CN114742014B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221842A (zh) * 2022-08-31 2022-10-21 内江师范学院 一种基于小样本数据集的字体风格迁移方法、系统及设备
CN118036555A (zh) * 2024-04-11 2024-05-14 江西师范大学 基于骨架式转移和结构对比学习的少样本字体生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140316768A1 (en) * 2012-12-14 2014-10-23 Pramod Khandekar Systems and methods for natural language processing
CN110148318A (zh) * 2019-03-07 2019-08-20 上海晨鸟信息科技有限公司 一种数字助教系统、信息交互方法和信息处理方法
CN110232652A (zh) * 2019-05-27 2019-09-13 珠海格力电器股份有限公司 图像处理引擎处理方法、用于终端的图像处理方法、终端
CN113393370A (zh) * 2021-06-02 2021-09-14 西北大学 中国书法文字图像风格迁移的方法、系统、智能终端
CN113555000A (zh) * 2020-12-30 2021-10-26 腾讯科技(深圳)有限公司 声学特征转换及模型训练方法、装置、设备、介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140316768A1 (en) * 2012-12-14 2014-10-23 Pramod Khandekar Systems and methods for natural language processing
CN110148318A (zh) * 2019-03-07 2019-08-20 上海晨鸟信息科技有限公司 一种数字助教系统、信息交互方法和信息处理方法
CN110232652A (zh) * 2019-05-27 2019-09-13 珠海格力电器股份有限公司 图像处理引擎处理方法、用于终端的图像处理方法、终端
CN113555000A (zh) * 2020-12-30 2021-10-26 腾讯科技(深圳)有限公司 声学特征转换及模型训练方法、装置、设备、介质
CN113393370A (zh) * 2021-06-02 2021-09-14 西北大学 中国书法文字图像风格迁移的方法、系统、智能终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI YU MEI等: "layer similarity guiding few-shot chinese style transfer", THE VISUAL COMPUTER, 7 June 2023 (2023-06-07), pages 2265 - 2278 *
李玉梅: "少样本字体风格迁移算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 3, 15 March 2024 (2024-03-15), pages 138 - 967 *
马春光;郭瑶瑶;武朋;刘海波;: "生成式对抗网络图像增强研究综述", 信息网络安全, no. 05, 10 May 2019 (2019-05-10), pages 10 - 21 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221842A (zh) * 2022-08-31 2022-10-21 内江师范学院 一种基于小样本数据集的字体风格迁移方法、系统及设备
CN115221842B (zh) * 2022-08-31 2022-12-20 内江师范学院 一种基于小样本数据集的字体风格迁移方法、系统及设备
CN118036555A (zh) * 2024-04-11 2024-05-14 江西师范大学 基于骨架式转移和结构对比学习的少样本字体生成方法

Also Published As

Publication number Publication date
CN114742014B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110175251A (zh) 基于语义对抗网络的零样本草图检索方法
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN114742014A (zh) 基于关联注意力的少样本文字风格迁移方法
CN114610900A (zh) 知识图谱补全方法及系统
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN113449787B (zh) 基于汉字笔画结构的字体库补全方法及系统
CN112163401A (zh) 基于压缩与激励的gan网络的汉字字体生成方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN107967497A (zh) 基于卷积神经网络和极限学习机的手写体识别方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN118036555B (zh) 基于骨架式转移和结构对比学习的少样本字体生成方法
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
Gui et al. Zero-shot generation of training data with denoising diffusion probabilistic model for handwritten Chinese character recognition
Xu et al. A novel image feature extraction algorithm based on the fusion AutoEncoder and CNN
Zeng et al. An unsupervised font style transfer model based on generative adversarial networks
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
JP7549706B2 (ja) データ拡張システム、データ拡張方法、及びプログラム
US12100082B2 (en) System and method of cross-modulated dense local fusion for few-shot image generation
CN114330535B (zh) 一种基于支持向量正则化字典对学习的模式分类方法
CN113191381B (zh) 一种基于交叉知识的图像零次分类模型及其分类方法
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Lin Guangfeng

Inventor after: Li Yumei

Inventor after: He Menglan

Inventor after: Wei Wenchao

Inventor before: Li Yumei

Inventor before: Lin Guangfeng

Inventor before: He Menglan

Inventor before: Wei Wenchao

GR01 Patent grant
GR01 Patent grant