CN115221842A - 一种基于小样本数据集的字体风格迁移方法、系统及设备 - Google Patents

一种基于小样本数据集的字体风格迁移方法、系统及设备 Download PDF

Info

Publication number
CN115221842A
CN115221842A CN202211055276.0A CN202211055276A CN115221842A CN 115221842 A CN115221842 A CN 115221842A CN 202211055276 A CN202211055276 A CN 202211055276A CN 115221842 A CN115221842 A CN 115221842A
Authority
CN
China
Prior art keywords
character
style
generator
network
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211055276.0A
Other languages
English (en)
Other versions
CN115221842B (zh
Inventor
张攀
吴国成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neijiang Normal University
Original Assignee
Neijiang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neijiang Normal University filed Critical Neijiang Normal University
Priority to CN202211055276.0A priority Critical patent/CN115221842B/zh
Publication of CN115221842A publication Critical patent/CN115221842A/zh
Application granted granted Critical
Publication of CN115221842B publication Critical patent/CN115221842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于小样本数据集的字体风格迁移方法、系统及设备,解决现有的方法在小样本数据集情况下存在过拟合和泛化能力差的问题,其技术方案要点是:获取两种样本数据集,构建表达文字图片特征的标签,根据标签对大样本数据集内的文字图片进行标记,获得标签信息;根据签信息对判决器进行训练,根据训练后的判决器和第一生成器构建生成对抗网络;将大样本数据集输入生成对抗网络中进行训练和第一生成器构建第二生成器;多个第二生成器构建循环神经网络;将第二生成器的输出的特征图作为循环神经网络的输入,并结合小样本数据集完成对循环神经网络的训练。本发明避免在小样本数据的情况下文字风格迁移出现过拟合和泛化能力差的问题。

Description

一种基于小样本数据集的字体风格迁移方法、系统及设备
技术领域
本发明涉及字体风格迁移领域,更具体地说,它涉及一种基于小样本数据集的字体风格迁移方法、系统及设备。
背景技术
文字风格迁移是指将指定的文字生成为目标风格的同一文字,可用于石碑、牌坊、木雕、瓷器等包含少量文字样本的文字书法研究。
传统的文字风格迁移算法都基于大量数据实现,其数据集中至少包含常用目标风格的五百个不同文字图片,但在部分场景中,如石碑、牌坊、木雕、瓷器等包含少量文字样本的文字书法研究中,可获取的文字图片数量有限,通常低于二百个,且单一批次的文字具有其独特的书法风格,通常不能直接使用现有的字库进行扩展,若将已有的文字风格迁移算法直接应用于小样本的数据集的训练,会导致模型算法训练过拟合,从而对训练集以外的文字风格迁移失败。
因此,现有文字风格迁移算法在小样本数据集情况下存在过拟合和泛化能力差的问题亟待解决。
发明内容
本发明为解决现有文字风格迁移算法在小样本数据集情况下存在过拟合和泛化能力差的问题,提供一种基于小样本数据集的字体风格迁移方法、系统及设备,达到对小样本数据集的文字风格图片的风格迁移。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,本发明提供了一种基于小样本数据集的字体风格迁移方法,包括:
获取包含目标风格文字图片的小样本数据集以及包含已有字库中具备多种风格的文字图片的大样本数据集;
构建表达文字图片的整体特征与局部特征的标签,根据所述标签对所述大样本数据集内的文字图片进行标记,获得标签信息;
根据所述标签信息对判决器进行训练,根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络;
将所述大样本数据集输入所述生成对抗网络中进行训练,根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器;
多个所述第二生成器构建循环神经网络;
将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,获得对小样本数据集的文字风格进行迁移的循环神经网络。
与现有技术相较而言,本发明首先提出了表达文字整体与局部特征的标签生成方法,随后利用该标签标记现有的大样本数据集,生成标签信息,利用标签信息对判决器进行训练,然后利用训练后的判决器和第一生成器构建具有文字认知能力的生成对抗网络。最后以第一生成器和训练后的生成对抗网络构建第二生成器,以第二生成器构建循环神经网络;循环神经网络的第一次输入,其文字风格分支输入数据来自小样本数据集的目标风格文字图片,文字内容分支输入数据是随机生成的源标准风格文字图片;最后一次输入,文字内容分支数据来源于小样本数据集中包含的文字对应的源标准风格文字图片,且利用其对应的目标风格文字图片求解损失函数,进行网络训练;其他循环中,文字内容分支输入数据是随机生成的源标准风格文字图片,文字风格分支输入数据则来自上一次网络输出的特征图;并对最后一次输出数据进行损失函数求解,当损失函数的误差值达到阈值时完成训练,所获得的循环神经网络实现对小样本数据集情况下的文字风格迁移,最终解决小样本情况下文字风格的迁移问题。
在一种可能的实施方案中,所述构建表达文字图片的整体特征与局部特征的标签,具体包括:
对所有文字图片进行最简拆分,获得由多个字符组件构成的字符元数据集;
对多个所述字符组件进行次一级拆分以更新字符元数据集中字符组件的数量;
对更新后的字符元数据集中的每个所述字符组件进行独热编码,获得每个所述字符组件的编码矩阵;
对每个所述字符组件的编码矩阵求和,获得表达文字图片的整体特征与局部特征的标签。
在一种可能的实施方案中,所述根据所述标签信息对判决器进行训练,之前还包括:
利用ViT模型构建所述判决器的深度卷积神经网络模型,并将所述大样本数据集中的文字风格图片进行均分后输入至所述判决器的深度卷积神经网络模型中。
在一种可能的实施方案中,所述根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络,包括:
由编码器和解码器构建第一生成器,其中所述第一生成器的编码器包括两路分支,第一路分支是文字内容编码分支,第二路分支是文字风格编码分支;
在所述编码器的M个网络层中,所述文字内容编码分支对所述编码器当前网络层中的表示文字内容的第一特征图进行Z*Z大小的均分,获得Z*Z个第一特征图块,并将均分后的每一个所述第一特征图块复制Z*Z次后扩展为第一特征图组;
所述文字风格编码分支对当前网络层中的表示文字风格的第二特征图进行Z*Z大小的均分,获得Z*Z个第二特征图块,并将这Z*Z个所述第二特征图块连接为第二特征图组;
计算文字风格与文字内容在M个网络层中的匹配注意力,其中,在一个网络层中的计算风格与内容的匹配注意力时,需循环Z*Z次,计算文字风格与文字内容在不同分块中的匹配注意力;
将所述匹配注意力与所述第二特征图组点乘后与所述第一特征图组相加,获得第三特征图组;
将所述第三特征图组输入至所述解码器中的尺度大小同等的网络中进行连接合并,构成第一生成器。
在一种可能的实施方案中,根据所述第一特征图组和第二特征图组计算文字风格与文字内容在M个网络层每一层中的匹配注意力,所述匹配注意力的计算式为
Figure 378099DEST_PATH_IMAGE001
;其中,
Figure 309014DEST_PATH_IMAGE002
表示网络层第j层的特征图通道数,i表示第一特征图块的分块编号,
Figure 218064DEST_PATH_IMAGE003
j表示第一特征图在编码器中所属的网络层,j∈[1,M],M表示编码器的网络层数,
Figure 959756DEST_PATH_IMAGE004
表示对第一特征图组与第二特征图组的相减结果的每个通道求均值,
Figure 219836DEST_PATH_IMAGE005
表示对求均值后的所有通道进行归一化处理,
Figure 564229DEST_PATH_IMAGE006
表示第i个第一特征图块在第j层的第一特征图组,
Figure 452420DEST_PATH_IMAGE007
表示在第j层的第二特征图组,
Figure 755225DEST_PATH_IMAGE008
表示每个通道获得的归一化后的均值所构成的矩阵。
在一种可能的实施方案中,将所述匹配注意力中的每个元素与所述文字风格编码分支中构成的第二特征图组
Figure 971443DEST_PATH_IMAGE007
进行点乘,然后与所述文字内容编码分支中构成的第一特征图组
Figure 994894DEST_PATH_IMAGE006
相加,获得带有文字风格与文字内容的匹配注意力的第三特征图组
Figure 878536DEST_PATH_IMAGE009
所述第三特征图组
Figure 86663DEST_PATH_IMAGE009
的计算式为
Figure 914811DEST_PATH_IMAGE010
,其中,
Figure 866586DEST_PATH_IMAGE011
表示每个通道获得的归一化后的均值所构成的矩阵,即所述匹配注意力。
在一种可能的实施方案中,所述根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器,具体包括:
以所述第一生成器为基础加载其在所述生成对抗网络训练完成后保存的权重参数,获得第二生成器。
在一种可能的实施方案中,所述将所述第二生成器当前输出的文字风格图片作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,具体包括:
将所述小样本数据集中的目标风格文字图片作为第一次输入数据输入所述循环神经网络的文字风格编码分支,从小样本数据集中随机获取所述目标风格文字图片对应的源标准风格文字图片作为最后一次输入数据输入所述循环神经网络的文字内容编码分支,并将所述目标风格文字图片作为训练标签;
所述循环神经网络的文字风格编码分支其余轮次的输入数据为所述循环神经网络的输出数据,随机获取所述大样本数据集中的文字图片对应的源标准风格文字图片作为所述循环神经网络的文字内容编码分支其余轮次的输入数据。
第二方面,提供了一种基于小样本数据集的字体风格迁移系统,包括:
数据获取模块,用于获取包含目标风格文字图片的小样本数据集以及包含已有字库中具备多种风格的文字图片的大样本数据集;
标记模块,用于构建表达文字图片的整体特征与局部特征的标签,根据所述标签对所述大样本数据集内的文字图片进行标记,获得标签信息;
生成对抗网络构建模块,用于根据所述标签信息对判决器进行训练,根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络;
第二生成器构建模块,用于将所述大样本数据集输入所述生成对抗网络中进行训练,根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器;
循环神经网络构建模块,用于多个所述第二生成器构建循环神经网络;
网络训练模块,用于将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,获得对小样本数据集的文字风格进行迁移的循环神经网络。
第三方面,提供了一种电子设备,所述电子设备包括存储器和处理器;
所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如第一方面所述的一种基于小样本数据集的字体风格迁移方法。
与现有技术相比,本发明具有以下有益效果:
本发明首先提出了表达文字整体与局部特征的标签生成方法,随后利用该标签标记现有的大样本数据集,生成标签信息,利用标签信息对判决器进行训练,然后利用训练后的判决器和第一生成器构建具有文字认知能力的生成对抗网络。最后以第一生成器和训练后的生成对抗网络构建第二生成器,以第二生成器构建循环神经网络;循环神经网络的第一次输入,其文字风格分支输入数据来自小样本数据集的目标风格文字图片,文字内容分支输入数据是随机生成的源标准风格文字图片;最后一次输入,文字内容分支数据来源于小样本数据集中包含的文字对应的源标准风格文字图片,且利用其对应的目标风格文字图片求解损失函数,进行网络训练;其他循环中,文字内容分支输入数据是随机生成的源标准风格文字图片,文字风格分支输入数据则来自上一次网络输出的特征图;并对最后一次输出数据进行损失函数求解,当损失函数的误差值达到阈值时完成训练,所获得的循环神经网络实现对小样本数据集情况下的文字风格迁移,最终解决小样本情况下文字风格的迁移问题。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例一提供的字体风格迁移方法的流程示意图;
图2为本发明实施例提供的生成器中编码器的文字内容分支与文字风格分支融合计算匹配注意力的流程示意图;
图3为本发明实施例提供的文字最简拆分为字符组件的拆分示意图;
图4为本发明实施例提供的第一生成器的结构示意图;
图5为本发明实施例提供的文字风格与文字内容的分块匹配示意图;
图6为本发明实施例提供的由第二生成器所构成的循环神经网络的示意图;
图7为本发明实施例一提供的字体风格迁移系统的原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例一:
文字风格迁移是指将指定的文字生成为目标风格的同一文字,传统的文字风格迁移算法都基于大量数据实现,其数据集中至少包含常用目标风格的五百个不同文字图片,但在部分场景中,如石碑、牌坊、木雕、瓷器等包含少量文字样本的文字书法研究中,可获取的文字图片数量有限,通常低于二百个,且单一批次的文字具有其独特的书法风格,通常不能直接使用现有的字库进行扩展,若将已有的文字风格迁移算法直接应用于小样本的数据集的训练,会导致模型算法训练过拟合,从而导致对小样本的数据集的文字风格迁移失败。因此本实施例提供了一种基于小样本数据集的字体风格迁移方法来解决现有算法对小样本数据集进行风格迁移时因存在过拟合和泛化能力差导致文字风格迁移失败的问题。
如图1所示,方法包括:
获取包含目标风格文字图片的小样本数据集以及包含已有字库中具备多种风格的文字图片的大样本数据集。
本实施例中,在考古领域中对文物上所附着的文字进行识别与生成时所采用的文字风格迁移算法都是基于文字图片所实现的,因此不论是对于包含大量数据的大样本数据集,还是对于仅包含少量数据的小样本数据集,均是由文字图片构成的。对于小样本数据集中的目标文字图片是具有其独特的书法风格,其具体的文字风格是不清楚的;对于大样本数据集中的已有字库中具备多种风格的文字图片的字体风格可以是宋体、楷体、隶书、草书、行书等等。“目标风格文字图片”表示迁移后的字体,即石刻、瓷器等表面上的字体,比如,需要根据已知的风格字体A(如宋体),去生成某种手写风格字体B,那么这里的字体A即为迁移前风格字体或称为源标准风格字体,生成的字体B即目标风格字体或称为迁移后风格字体。
构建表达文字图片的整体特征与局部特征的标签,根据所述标签对所述大样本数据集内的文字图片进行标记,获得标签信息。
本实施例中,以往的判决器都是将文字图片整体作为输入,以及将生成的特征作为整体输出,且不同字体的同一文字使用了一对一的标签来进行标记的方法,这会导致网络模型存在记忆了数据集样本的情况发生,并没有具备剔除文字风格影响来识别文字内容的能力。而本实施例所构建的表达文字整体特征与局部特征的标签使得输入数据和输出数据都具有整体与局部的标记,且对于不同字体的同一文字使用的是多对一的标记方法,使得判决器具备了剔除文字风格影响而识别文字内容的能力,依据判决器剔除文字风格影响而识别文字内容的能力是后续训练生成器生成特定风格文字内容的基础。需要说明的是,依据判决器和生成器之间的相互训练构成生成对抗网络是本领域技术人员的公知常识。利用标签对大样本数据集内的文字图片进行标记,获得标签信息,依据标签信息对判决器进行训练。
根据所述标签信息对判决器进行训练,根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络。
在本实施例中,判决器用于提升生成对抗网络模型的生成能力,即需要判定生成器生成的特征是否是所需要的文字。不同于目标分类任务中直接将目标类别整体上直接编码,也不同于图像分割任务中只进行每个待分割部分的标记,考虑到文字数据的特殊性,该判决器在输入和输出两个方面都必须即获取文字数据的整体与局部特征,又考虑数据有效样本的有限性,由于采用对所有文字的多种不同风格字体的数据进行训练,同时数据标签与风格无关,只与文字本身内容有关,因此通过利用已有的风格字体构建的大样本数据集的训练,使得此时的判决器具备了对不同风格的同一文字的识别能力,即剔除文字风格影响,抽象上认识了文字的内容,同时也认识到了文字内容上可附加不同的字体风格,然后依据判决器和第一生成器构建并训练具有文字认知能力的生成对抗网络,其中,需要理解的是,判决器和第一生成器需要相互训练才能构建出具有文字认知能力的生成对抗网络,文字认知能力即包括识别文字,也包括生成文字;其中,需要说明的是,第一生成器由编码器和解码器构成,第一生成器的编码器具备风格编码分支和内容编码分支。因此本实施例区别了现有的算法处理方式,现有的算法会在判决器中添加文字风格判定损失函数,因为增加的文字风格分类计算,会破坏原有文字数据的标签的多对一形式,形成文字到标签的一对一标记,与其带来的判决能力提升相比,更可能的是导致模型记住了训练数据集,而并非是学习到了训练数据集,从而造成模型过拟合的问题,故而本发明解决了在风格迁移过程中模型过拟合的问题。
将所述大样本数据集输入所述生成对抗网络中进行训练,根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器。
在本实施例中,由于小样本数据集的样本数据少,可直接使用进行学习的数据标签有限,因此需要扩展数据集。传统的数据集扩展方法都是基于数据本身的直接扩展,如裁剪、旋转、缩放等,这些操作中的绝大多数是不适用于具有特定空间结构的文字的。本发明摒弃了传统的数据集扩展方法,而是将数据集的扩展融入到了网络模型中,由于文字内容和文字风格的可分离性,且本发明设计中已经构建了利用大量数据训练的具备识别并生成文字内容和文字风格能力的生成对抗网络,因此以生成对抗网络和第一生成器为基础构建具备融合特定文字风格到文字内容能力的第二生成器。
多个所述第二生成器构建循环神经网络。
在本实施例中,以多个第二生成器为基础单元构建了循环神经网络,多个即至少由两个第二生成器所搭建的循环神经网络,循环神经网络中,巧妙的将生成的具有特定文字风格的文字内容在网络中循环传递,并将最后一轮次输出数据与标签信息进行比较,从而有效实现了将大量扩展的无标签的数据融入到了有标签的小样本数据集中并完成对第二生成器的训练。
将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,获得对小样本数据集的文字风格进行迁移的循环神经网络。
在本实施例中,由于循环神经网络是由第二生成器为基础单元所构建的,因此循环神经网络也具备文字内容编码分支和文字风格编码分支,其第一次输入数据中的文字风格数据是从小样本数据集中随机获取的。其最后一次输入数据中的文字内容数据是从小样本文字图片数据集中随机获取的文字风格图片对应的源标准风格字体文字。其余训练过程中第n次输出的特征图和随机从大样本数据集中获取的文字图片对应的源标准风格文字图片共同作为第n+1次的输入数据,并输出带有目标风格的文字图片并识别目标文字图片的内容,从而完成基于小样本数据集的文字风格迁移。最后对于可输出带有目标风格的文字图片的循环神经网络,其已经具备对小样本数据中文字风格进行迁移的能力,故此循环神经网络在使用时只需要进行一次输入,输入数据包括从小样本文字图片数据集中随机获取的目标风格文字图片和待进行文字风格迁移的源标准文字内容图片。
综合上述实施方案,本申请的字体风格迁移方法,首先设计了表达文字整体与局部特征的标签生成方法,随后利用该标签标记现有的大样本数据集,生成标签信息,利用标签信息对判决器进行训练,然后利用训练后的判决器和第一生成器构建具有文字认知能力的生成对抗网络。最后以第一生成器和训练后的生成对抗网络构建第二生成器,以第二生成器构建循环神经网络;循环神经网络的第一次输入,其风格分支数据来自小样本数据集的目标风格文字图片,内容分支数据是随机生成的源标准风格文字图片;最后一次输入,文字内容分支数据来源于小样本数据集中包含的文字图片对应的源标准风格文字图片,且利用其对应的目标风格文字图片求解损失函数,进行网络训练;其他循环中,文字内容分支输入数据是随机生成的源标准风格文字图片,文字风格则来自上一次网络输出的特征图;当损失函数的误差值达到阈值时完成训练,所获得的循环神经网络实现对小样本数据集情况下的文字风格迁移,最终解决小样本情况下文字风格的迁移问题。本发明提供的字体风格迁移方法可应用于考古领域中对石碑、牌坊、木雕、瓷器等表面包含少量文字样本的文字书法研究,能够生成类似于石碑、牌坊、木雕、瓷器等器物上的风格的其它文字,使得工作人员能够快速的掌握文物上所记载的内容。
在一种可能的实现方案中,如图3所示,所述构建表达文字图片的整体特征与局部特征的标签,具体包括:
对所有文字图片进行最简拆分,获得由多个字符组件构成的字符元数据集;
对多个所述字符组件进行次一级拆分以更新字符元数据集中字符组件的数量;
对更新后的字符元数据集中的每个所述字符组件进行独热编码,获得每个所述字符组件的编码矩阵;
对每个所述字符组件的编码矩阵求和,获得表达文字图片的整体特征与局部特征的标签。
具体的,如图3所示,以“伙”字为例,进行最简拆分的结果为“亻”和“火”,但就“火”这个字符组件而言,还可进行次一级拆分,其结果为“人”;再例如“锡”,进行最简拆分的结果为“钅、日和勿”,但就“日”这个字符组件而言,进行次一级拆分可为“口”,但就“勿”这个字符组件而言,进行次一级拆分可为“勹”。这样即可更加完整的表达字体细节区别之处。提供所获得的标签的整体特征与局部特征表达的更为准确。需要说明的是,所有最简拆分和次一级拆分所获得的字符组件,都是计算机中可表达显示的。需要理解的是,对可以进行次一级拆分的字符组件才进行进一步的更新,比如上述的“亻”已经是最简单元了,已无法在对其进行次一级的拆分操作。
统计常见的Q个文字进行偏旁部首的最简拆分,获得最简可拆分的字符组件N个,利用N位二进制数分别对N个最简可拆分字符组件进行独热编码,获得编码矩阵
Figure 604735DEST_PATH_IMAGE012
,对任意单个文字其包含P个字符组件,按照公式
Figure 859130DEST_PATH_IMAGE013
对每个字符组件的编码矩阵进行求和,其中,k表示单个文字的第k个字符组件,T表示对编码矩阵的转置,获得其联合编码
Figure 49940DEST_PATH_IMAGE014
即标签。
在一种可能的实现方案中,所述根据所述标签信息对判决器进行训练,之前还包括:
利用ViT模型构建所述判决器的深度卷积神经网络模型,并将所述大样本数据集中的文字风格图片进行均分后输入至所述判决器的深度卷积神经网络模型中。
具体的,在本实施例中,对于包含多种不同文字风格的文字图片的大样本数据集,其中所包含的文字数量超过3000个,并按照公式
Figure 805407DEST_PATH_IMAGE013
进行文字的联合编码,生成每个文字的标签。利用ViT模型构建判决器的深度卷积神经网络模型,从大样本数据集获取输入判决器的深度卷积神经网络模型进行训练的文字图片数据需要进行K*K数量的均分,并利用生成的标签对判决器的深度卷积神经网络模型进行学习和训练,对于判决器进行训练的损失函数采用L2损失函数,最终获得的判决器具备了对不同风格的同一文字的识别能力,即可以剔除文字风格影响,抽象上识别了文字的内容,同时也认识到了文字内容上可附加不同的字体风格。
在一种可能的实现方案中,如图2和图4所示,所述根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络,包括:
由编码器和解码器构建第一生成器,其中所述第一生成器的编码器包括两路分支,第一路分支是文字内容编码分支,第二路分支是文字风格编码分支。
在本实施例中,如图4所示,第一生成器以UNet为骨干网络,包括编码器和解码器两部分。编码器包含两路分支,且分支主体网络模型相同,其第一路分支是文字内容编码分支,第二路分支是文字风格编码分支。
在所述编码器的M个网络层中,所述文字内容编码分支对所述编码器当前网络层中的表示文字内容的第一特征图进行Z*Z大小的均分,获得Z*Z个第一特征图块,并将均分后的每一个所述第一特征图块复制Z*Z次后扩展为第一特征图组;所述文字风格编码分支对当前网络层中的表示文字风格的第二特征图进行Z*Z大小的均分,获得Z*Z个第二特征图块,并将这Z*Z个所述第二特征图块连接为第二特征图组。
如图2所示,在本实施例中,在编码器网络特定的1,2,……,M层,文字内容编码分支会将当前层的第一特征图
Figure 260046DEST_PATH_IMAGE015
进行Z*Z大小的均分,并将每个均分后的第一特征图的模块复制Z*Z次后连接为一组第一特征图组
Figure 809976DEST_PATH_IMAGE006
,其中
Figure 753661DEST_PATH_IMAGE016
,表示特征图来源均分块编号,
Figure 922606DEST_PATH_IMAGE017
,表示第一特征图来源所属网络层。与文字内容编码分支对应,在编码器网络特定的1,2,……,M层,文字风格编码分支将当前网络层的Z*Z个第一特征图块进行连接为一组第二特征图组
Figure 369768DEST_PATH_IMAGE007
,其中j∈[1,M],表示编码器中第二特征图所属的网络层。
计算文字风格与文字内容在M个网络层中的匹配注意力,其中,在一个网络层中的计算风格与内容的匹配注意力时,需循环Z*Z次,计算文字风格与文字内容在不同分块中的匹配注意力;
现有的文字内容与文字风格融合的方法主要分为两类:整体匹配融合或局部匹配融合。整体匹配融合试图直接将文字风格数据融合到文字内容数据中,实现简单但模型难以训练,要求数据量大,小样本下模型鲁棒性不佳,且模型在文字细节生成方面欠佳。局部匹配融合主要是利用数据集构建的局部风格特征库来进行查询匹配,由于文字具备的空间结构特性,这种查询匹配在空间结构中实现配准很难,且构建的局部风格特征库要求的目标风格文字的局部模块数量也较多,难以适应数据量较小的情况,同时生成的文字缺乏宏观整体信息。如图5所示,在本实施例中,本实施例所设计的方法是将文字内容与文字风格的整体匹配和局部匹配进行了融合,形成了文字内容与文字风格的匹配注意力机制,且这种注意力机制是自适应的,兼顾了以往方法的优点。这种整体匹配与局部匹配进行融合是后续实现小样本数据集文字风格迁移的关键。由于编码器的网络层一共有M层,因此需要循环M次来计算文字风格与文字内容在不同尺度的匹配注意力。需要说明的是,每循环一次计算文字风格与文字内容的匹配注意力时,都需循环Z*Z次,计算不同分块中文字风格与文字内容在不同分块中的匹配注意力。
将所述匹配注意力与所述第二特征图组点乘后与所述第一特征图组相加,获得第三特征图组;
在本实施例中,编码器对所计算的匹配注意力、所连接的第一特征图组和第二特征图组进行处理得到带有文字风格与文字内容的匹配注意力的第三特征图组,编码器完成文字风格与文字内容的匹配注意力融合。
将所述第三特征图组输入至所述解码器中的尺度大小同等的网络中进行连接合并,构成第一生成器。
在本实施例中,从Z*Z块文字风格图片中筛选出了最适合当前文字内容分块向目标风格字体进行转换的第三特征图组,随后将含有通道注意力的所有文字风格特征图与当前分块中的第三特征图组传递到UNet骨干网络的解码器中的同等大小尺度的网络中进行连接合并,共同构成第一生成器。将第一生成器与判决器共同构成生成对抗网络,由于此时样本数量是充足的,因此最终获得的生成对抗网络模型具备了对文字的认知能力,即包括识别文字,也包括生成文字。
在一种可能的实现方案中,根据所述第一特征图组和第二特征图组计算文字风格与文字内容在M个网络层每一层中的匹配注意力,所述匹配注意力的计算式为
Figure 825020DEST_PATH_IMAGE001
;其中,
Figure 380635DEST_PATH_IMAGE018
表示网络层第j层的特征图通道数,i表示第一特征图块的分块编号,
Figure 212325DEST_PATH_IMAGE003
j表示第一特征图在编码器中所属的网络层,j∈[1,M],M表示编码器的网络层数,
Figure 779572DEST_PATH_IMAGE004
表示对第一特征图组与第二特征图组的相减结果的每个通道求均值,
Figure 546671DEST_PATH_IMAGE005
表示对求均值后的所有通道进行归一化处理,
Figure 199369DEST_PATH_IMAGE006
表示第i个第一特征图块在第j层的第一特征图组,
Figure 834750DEST_PATH_IMAGE007
表示在第j层的第二特征图组,
Figure 990925DEST_PATH_IMAGE008
表示每个通道获得的归一化后的均值所构成的矩阵。
具体的,在每个分块中计算文字风格与文字内容的匹配注意力时,首先将文字内容编码分支中构成的第一特征图组,与文字风格编码分支中构成的第二特征图组
Figure 443772DEST_PATH_IMAGE019
相减,对相减结果的每个通道求均值后进行基于所有通道的归一化,进而获得由每个通道归一化的均值构成的矩阵
Figure 318187DEST_PATH_IMAGE008
,构成了一种文字风格与文字内容的匹配注意力。
在一种可能的实现方案中,将所述匹配注意力中的每个元素与所述文字风格编码分支中构成的第二特征图组
Figure 757258DEST_PATH_IMAGE007
进行点乘,然后与所述文字内容编码分支中构成的第一特征图组
Figure 908885DEST_PATH_IMAGE006
相加,获得带有文字风格与文字内容的匹配注意力的第三特征图组
Figure 408000DEST_PATH_IMAGE009
所述第三特征图组
Figure 769711DEST_PATH_IMAGE009
的计算式为
Figure 871528DEST_PATH_IMAGE010
,其中,
Figure 2295DEST_PATH_IMAGE011
表示每个通道获得的归一化后的均值所构成的矩阵,即所述匹配注意力。
具体的,将匹配注意力的矩阵
Figure 672311DEST_PATH_IMAGE011
中的每个元素与文字风格编码分支中构成的第二特征图组进行点乘,然后与文字内容编码分支中构成的第一特征图组相加,获得带有文字风格与文字内容的匹配注意力的第三特征图组
Figure 396684DEST_PATH_IMAGE009
,第三特征图组的计算式为:
Figure 911979DEST_PATH_IMAGE010
。并将其传递到UNet骨干网络的解码器中的同等大小尺度的网络中进行连接合并,最终完成文字风格与文字内容的融合。
在一种可能的实现方案中,所述根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器,具体包括:
以所述第一生成器为基础加载其在所述生成对抗网络训练完成后保存的权重参数,获得第二生成器。
在一种可能的实现方案中,如图6所示,所述将所述第二生成器当前输出的文字风格图片作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,具体包括:
将所述小样本数据集中的目标风格文字图片作为第一次输入数据输入所述循环神经网络的文字风格编码分支,从小样本数据集中随机获取所述目标风格文字图片对应的源标准风格文字图片作为最后一次输入数据输入所述循环神经网络的文字内容编码分支,并将所述目标风格文字图片作为训练标签;
所述循环神经网络的文字风格编码分支其余轮次的输入数据为所述循环神经网络的输出数据,随机获取所述大样本数据集中的文字图片对应的源标准风格文字图片作为所述循环神经网络的文字内容编码分支其余轮次的输入数据。
具体的,如图6所示,以第一生成器为基础加载其在生成对抗网络训练完成后保存的训练权重参数,获得第二生成器,并以第二生成器为基础单元构建循环神经网络。循环神经网络在每轮训练过程中的输入输出数据的计算式为
Figure 162832DEST_PATH_IMAGE020
。其第一次输入数据中的文字风格数据
Figure 955531DEST_PATH_IMAGE021
是从小样本数据集中随机获取的。其最后一次输入数据中的文字内容数据
Figure 291835DEST_PATH_IMAGE022
是从小样本数据集中随机获取的文字风格图片对应的源标准风格文字图片,并将该标准风格文字对应的目标风格文字图片作为本轮次循环神经网络训练的标签,并采用L2损失函数对循环神经网络进行训练。其余训练过程中第n次输出的风格特征图
Figure 610821DEST_PATH_IMAGE023
和随机从大样本数据集中获取的文字图片对应的源标准风格文字内容图片
Figure 857125DEST_PATH_IMAGE024
共同作为第n+1次的输入数据,并输出带有目标风格的文字图片
Figure 603364DEST_PATH_IMAGE025
当L2损失函数的损失误差达到阈值时则完成训练,所获得的循环神经网络具备实现对小样本数据集情况下的文字风格迁移的能力。该循环神经网络在使用时只需要进行一轮次的一次输入,即可输出带有目标风格的文字图片,实现对基于小样本数据的文字风格迁移。
实施例二:
如图7所示,本申请实施例二在实施例一的基础上提供了一种基于小样本数据集的字体风格迁移系统,包括:
数据获取模块,用于获取包含目标风格文字图片的小样本数据集以及包含已有字库中具备多种风格的文字图片的大样本数据集;
标记模块,用于构建表达文字图片的整体特征与局部特征的标签,根据所述标签对所述大样本数据集内的文字图片进行标记,获得标签信息;
生成对抗网络构建模块,用于根据所述标签信息对判决器进行训练,根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络;
第二生成器构建模块,用于将所述大样本数据集输入所述生成对抗网络中进行训练,根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器;
循环神经网络构建模块,用于多个所述第二生成器构建循环神经网络;
网络训练模块,用于将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,获得对小样本数据集的文字风格进行迁移的循环神经网络。
与现有技术相比较而言,本实施例二的文字风格迁移系统首先提出了表达文字整体与局部特征的标签生成方法,随后利用该标签标记现有的大样本数据集,生成标签信息,利用标签信息对判决器进行训练,然后利用训练后的判决器和第一生成器构建具有文字认知能力的生成对抗网络。最后以第一生成器和训练后的生成对抗网络构建第二生成器,以第二生成器构建循环神经网络;循环神经网络的第一次输入,其风格分支数据来自小样本数据集的目标文字风格图片,内容分支数据是随机生成的源标准风格文字图片;最后一次输入,文字内容分支数据来源于小样本数据集中包含的文字对应的源标准风格文字图片,且利用其对应的目标风格文字图片求解损失函数,进行网络训练;其他循环中,文字内容分支输入数据是随机生成的源标准风格文字图片,文字风格则来自上一次网络输出的特征图;并对最后一次输出数据进行损失函数求解,当损失函数的误差值达到阈值时完成训练,所获得的循环神经网络实现对小样本数据集情况下的文字风格迁移,最终解决小样本情况下文字风格的迁移问题。
本申请实施例二的迁移系统还用于执行以下步骤:
在一种可能的实施方案中,所述构建表达文字图片的整体特征与局部特征的标签,具体包括:
对所有文字图片进行最简拆分,获得由多个字符组件构成的字符元数据集;
对多个所述字符组件进行次一级拆分以更新字符元数据集中字符组件的数量;
对更新后的字符元数据集中的每个所述字符组件进行独热编码,获得每个所述字符组件的编码矩阵;
对每个所述字符组件的编码矩阵求和,获得表达文字图片的整体特征与局部特征的标签。
在一种可能的实施方案中,所述根据所述标签信息对判决器进行训练,之前还包括:
利用ViT模型构建所述判决器的深度卷积神经网络模型,并将所述大样本数据集中的文字风格图片进行均分后输入至所述判决器的深度卷积神经网络模型中。
在一种可能的实施方案中,所述根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络,包括:
由编码器和解码器构建第一生成器,其中所述第一生成器的编码器包括两路分支,第一路分支是文字内容编码分支,第二路分支是文字风格编码分支;
在所述编码器的M个网络层中,所述文字内容编码分支对所述编码器当前网络层中的表示文字内容的第一特征图进行Z*Z大小的均分,获得Z*Z个第一特征图块,并将均分后的每一个所述第一特征图块复制Z*Z次后扩展为第一特征图组;
所述文字风格编码分支对当前网络层中的表示文字风格的第二特征图进行Z*Z大小的均分,获得Z*Z个第二特征图块,并将这Z*Z个所述第二特征图块连接为第二特征图组;
计算文字风格与文字内容在M个网络层中的匹配注意力,其中,在一个网络层中的计算风格与内容的匹配注意力时,需循环Z*Z次,计算文字风格与文字内容在不同分块中的匹配注意力;
将所述匹配注意力与所述第二特征图组点乘后与所述第一特征图组相加,获得第三特征图组;
将所述第三特征图组输入至所述解码器中的尺度大小同等的网络中进行连接合并,构成第一生成器。
在一种可能的实施方案中,根据所述第一特征图组和第二特征图组计算文字风格与文字内容在M个网络层每一层中的匹配注意力,所述匹配注意力的计算式为
Figure 161385DEST_PATH_IMAGE001
;其中,
Figure 284061DEST_PATH_IMAGE002
表示网络层第j层的特征图通道数,i表示第一特征图块的分块编号,
Figure 634140DEST_PATH_IMAGE003
j表示第一特征图在编码器中所属的网络层,j∈[1,M],M表示编码器的网络层数,
Figure 551281DEST_PATH_IMAGE004
表示对第一特征图组与第二特征图组的相减结果的每个通道求均值,
Figure 3122DEST_PATH_IMAGE005
表示对求均值后的所有通道进行归一化处理,
Figure 663910DEST_PATH_IMAGE006
表示第i个第一特征图块在第j层的第一特征图组,
Figure 478282DEST_PATH_IMAGE007
表示在第j层的第二特征图组,
Figure 831903DEST_PATH_IMAGE008
表示每个通道获得的归一化后的均值所构成的矩阵。
在一种可能的实施方案中,将所述匹配注意力中的每个元素与所述文字风格编码分支中构成的第二特征图组
Figure 754729DEST_PATH_IMAGE007
进行点乘,然后与所述文字内容编码分支中构成的第一特征图组
Figure 219208DEST_PATH_IMAGE006
相加,获得带有文字风格与文字内容的匹配注意力的第三特征图组
Figure 888087DEST_PATH_IMAGE009
所述第三特征图组
Figure 287975DEST_PATH_IMAGE009
的计算式为
Figure 573463DEST_PATH_IMAGE010
,其中,
Figure 576054DEST_PATH_IMAGE011
表示每个通道获得的归一化后的均值所构成的矩阵,即所述匹配注意力。
在一种可能的实施方案中,所述根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器,具体包括:
以所述第一生成器为基础加载其在所述生成对抗网络训练完成后保存的权重参数,获得第二生成器。
在一种可能的实施方案中,所述将所述第二生成器当前输出的文字风格图片作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,具体包括:
将所述小样本数据集中的目标风格文字图片作为第一次输入数据输入所述循环神经网络的文字风格编码分支,从小样本数据集中随机获取所述目标风格文字图片对应的源标准风格文字图片作为最后一次输入数据输入所述循环神经网络的文字内容编码分支,并将所述目标风格文字图片作为训练标签;
所述循环神经网络的文字风格编码分支其余轮次的输入数据为所述循环神经网络的输出数据,随机获取所述大样本数据集中的文字图片对应的源标准风格文字图片作为所述循环神经网络的文字内容编码分支其余轮次的输入数据。
需要理解的是,本实施例二提供的各个模块所实现的功能均已在上述实施例一的方法步骤中进行了说明,因此不再做多余的叙述。
实施例三:
基于同一发明构思,本实施例三提供了一种电子设备,所述电子设备包括存储器和处理器;所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如实施例一所述的一种基于小样本数据集的字体风格迁移方法。
其中,电子设备可以是计算机、平板电脑等智能设备,处理器可以是通用中央处理器(CPU),微处理器,特定应用集成电路(ASIC),或一个或多个用于控制以上方案程序执行的集成电路。通信接口,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。存储器可以是只读存储器(ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(RAM)或者可存储信息和指令的其他类型的 动态存储设备 ,也可以是电可擦可编程只读存储器、只读光盘或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。其中,所述存储器用于存储执行以上方案的应用程序代码,并由处理器来控制执行。所述处理器用于执行所述存储器中存储的应用程序代码。存储器存储的代码可执行以上提供的终端设备执行的上述字体风格迁移方法,比如包括:获取包含目标风格文字图片的小样本数据集以及包含已有字库中具备多种风格的文字图片的大样本数据集;构建表达文字图片的整体特征与局部特征的标签,根据所述标签对所述大样本数据集内的文字图片进行标记,获得标签信息;根据所述标签信息对判决器进行训练,根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络;将所述大样本数据集输入所述生成对抗网络中进行训练,根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器;多个所述第二生成器构建循环神经网络;将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,获得对小样本数据集的文字风格进行迁移的循环神经网络。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于小样本数据集的字体风格迁移方法,其特征在于,包括:
获取包含目标风格文字图片的小样本数据集以及包含已有字库中具备多种风格的文字图片的大样本数据集;
构建表达文字图片的整体特征与局部特征的标签,根据所述标签对所述大样本数据集内的文字图片进行标记,获得标签信息;
根据所述标签信息对判决器进行训练,根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络;
将所述大样本数据集输入所述生成对抗网络中进行训练,根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器;
多个所述第二生成器构建循环神经网络;
将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,获得对小样本数据集的文字风格进行迁移的循环神经网络。
2.根据权利要求1所述的方法,其特征在于,所述构建表达文字图片的整体特征与局部特征的标签,具体包括:
对所有文字图片进行最简拆分,获得由多个字符组件构成的字符元数据集;
对多个所述字符组件进行次一级拆分以更新字符元数据集中字符组件的数量;
对更新后的字符元数据集中的每个所述字符组件进行独热编码,获得每个所述字符组件的编码矩阵;
对每个所述字符组件的编码矩阵求和,获得表达文字图片的整体特征与局部特征的标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述标签信息对判决器进行训练,之前还包括:
利用ViT模型构建所述判决器的深度卷积神经网络模型,并将所述大样本数据集中的文字风格图片进行均分后输入至所述判决器的深度卷积神经网络模型中。
4.根据权利要求1所述的方法,其特征在于,所述根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络,包括:
由编码器和解码器构建第一生成器,其中所述第一生成器的编码器包括两路分支,第一路分支是文字内容编码分支,第二路分支是文字风格编码分支;
在所述编码器的M个网络层中,所述文字内容编码分支对所述编码器当前网络层中的表示文字内容的第一特征图进行Z*Z大小的均分,获得Z*Z个第一特征图块,并将均分后的每一个所述第一特征图块复制Z*Z次后扩展为第一特征图组;
所述文字风格编码分支对当前网络层中的表示文字风格的第二特征图进行Z*Z大小的均分,获得Z*Z个第二特征图块,并将这Z*Z个所述第二特征图块连接为第二特征图组;
计算文字风格与文字内容在M个网络层中的匹配注意力,其中,在一个网络层中的计算风格与内容的匹配注意力时,需循环Z*Z次,计算文字风格与文字内容在不同分块中的匹配注意力;
将所述匹配注意力与所述第二特征图组点乘后与所述第一特征图组相加,获得第三特征图组;
将所述第三特征图组输入至所述解码器中的尺度大小同等的网络中进行连接合并,构成第一生成器。
5.根据权利要求4所述的方法,其特征在于,根据所述第一特征图组和第二特征图组计算文字风格与文字内容在M个网络层每一层中的匹配注意力,所述匹配注意力的计算式为
Figure 894940DEST_PATH_IMAGE001
;其中,
Figure 405555DEST_PATH_IMAGE002
表示网络层第j层的特征图通道数,i表示第一特征图块的分块编号,
Figure 919713DEST_PATH_IMAGE003
j表示第一特征图在编码器中所属的网络层,j∈[1,M],M表示编码器的网络层数,
Figure 49343DEST_PATH_IMAGE004
表示对第一特征图组与第二特征图组的相减结果的每个通道求均值,
Figure 722770DEST_PATH_IMAGE005
表示对求均值后的所有通道进行归一化处理,
Figure 14074DEST_PATH_IMAGE006
表示第i个第一特征图块在第j层的第一特征图组,
Figure 15528DEST_PATH_IMAGE007
表示在第j层的第二特征图组,
Figure 73483DEST_PATH_IMAGE008
表示每个通道获得的归一化后的均值所构成的矩阵。
6.根据权利要求5所述的方法,其特征在于,将所述匹配注意力中的每个元素与所述文字风格编码分支中构成的第二特征图组
Figure 476783DEST_PATH_IMAGE007
进行点乘,然后与所述文字内容编码分支中构成的第一特征图组
Figure 204567DEST_PATH_IMAGE006
相加,获得带有文字风格与文字内容的匹配注意力的第三特征图组
Figure 693317DEST_PATH_IMAGE009
所述第三特征图组
Figure 23804DEST_PATH_IMAGE009
的计算式为
Figure 281610DEST_PATH_IMAGE010
,其中,
Figure 445876DEST_PATH_IMAGE011
表示每个通道获得的归一化后的均值所构成的矩阵,即所述匹配注意力。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器,具体包括:
以所述第一生成器为基础加载其在所述生成对抗网络训练完成后保存的权重参数,获得第二生成器。
8.根据权利要求1所述的方法,其特征在于,所述将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,具体包括:
将所述小样本数据集中的目标风格文字图片作为第一次输入数据输入所述循环神经网络的文字风格编码分支,从小样本数据集中随机获取所述目标风格文字图片对应的源标准风格文字图片作为最后一次输入数据输入所述循环神经网络的文字内容编码分支,并将所述目标风格文字图片作为训练标签;
所述循环神经网络的文字风格编码分支其余轮次的输入数据为所述循环神经网络的输出数据,随机获取所述大样本数据集中的文字图片对应的源标准风格文字图片作为所述循环神经网络的文字内容编码分支其余轮次的输入数据。
9.一种基于小样本数据集的字体风格迁移系统,其特征在于,包括:
数据获取模块,用于获取包含目标风格文字图片的小样本数据集以及包含已有字库中具备多种风格的文字图片的大样本数据集;
标记模块,用于构建表达文字图片的整体特征与局部特征的标签,根据所述标签对所述大样本数据集内的文字图片进行标记,获得标签信息;
生成对抗网络构建模块,用于根据所述标签信息对判决器进行训练,根据训练后的所述判决器和第一生成器构建具有文字认知能力的生成对抗网络;
第二生成器构建模块,用于将所述大样本数据集输入所述生成对抗网络中进行训练,根据所述第一生成器和训练后的所述生成对抗网络构建第二生成器;
循环神经网络构建模块,用于多个所述第二生成器构建循环神经网络;
网络训练模块,用于将所述第二生成器当前输出的特征图作为所述循环神经网络的文字风格编码分支下一次循环的输入,并结合所述小样本数据集完成对所述循环神经网络的训练,获得对小样本数据集的文字风格进行迁移的循环神经网络。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至8任一所述的一种基于小样本数据集的字体风格迁移方法。
CN202211055276.0A 2022-08-31 2022-08-31 一种基于小样本数据集的字体风格迁移方法、系统及设备 Active CN115221842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211055276.0A CN115221842B (zh) 2022-08-31 2022-08-31 一种基于小样本数据集的字体风格迁移方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211055276.0A CN115221842B (zh) 2022-08-31 2022-08-31 一种基于小样本数据集的字体风格迁移方法、系统及设备

Publications (2)

Publication Number Publication Date
CN115221842A true CN115221842A (zh) 2022-10-21
CN115221842B CN115221842B (zh) 2022-12-20

Family

ID=83617686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211055276.0A Active CN115221842B (zh) 2022-08-31 2022-08-31 一种基于小样本数据集的字体风格迁移方法、系统及设备

Country Status (1)

Country Link
CN (1) CN115221842B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079263A (zh) * 2023-10-16 2023-11-17 内江师范学院 一种碑文文字提取方法、装置、设备及介质
CN117094882A (zh) * 2023-10-18 2023-11-21 中南大学 一种无损数字刺绣图像风格迁移方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090249429A1 (en) * 2008-03-31 2009-10-01 At&T Knowledge Ventures, L.P. System and method for presenting media content
CN109190722A (zh) * 2018-08-06 2019-01-11 大连民族大学 基于满文字符图片的字体风格迁移变换方法
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN113011337A (zh) * 2021-03-19 2021-06-22 山东大学 一种基于深度元学习的汉字字库生成方法及系统
CN113421318A (zh) * 2021-06-30 2021-09-21 合肥高维数据技术有限公司 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN114548038A (zh) * 2022-02-25 2022-05-27 杭州电子科技大学 一种基于汉字字形扰动的字体风格迁移方法
CN114742014A (zh) * 2022-04-12 2022-07-12 西安理工大学 基于关联注意力的少样本文字风格迁移方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090249429A1 (en) * 2008-03-31 2009-10-01 At&T Knowledge Ventures, L.P. System and method for presenting media content
CN109190722A (zh) * 2018-08-06 2019-01-11 大连民族大学 基于满文字符图片的字体风格迁移变换方法
CN110503598A (zh) * 2019-07-30 2019-11-26 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN113011337A (zh) * 2021-03-19 2021-06-22 山东大学 一种基于深度元学习的汉字字库生成方法及系统
CN113421318A (zh) * 2021-06-30 2021-09-21 合肥高维数据技术有限公司 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN114548038A (zh) * 2022-02-25 2022-05-27 杭州电子科技大学 一种基于汉字字形扰动的字体风格迁移方法
CN114742014A (zh) * 2022-04-12 2022-07-12 西安理工大学 基于关联注意力的少样本文字风格迁移方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GANTUGS ATARSAIKHAN.ETC: "Neural Font Style Transfer", 《2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》 *
秦智伟等: ""基于分数阶Logistic映射的彩色图像加密"", 《曲靖师范学院学报》 *
陈杰夫: ""基于生成对抗网络的汉字字体风格生成与转换"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄子君等: ""基于深度学习的汉字生成方法"", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079263A (zh) * 2023-10-16 2023-11-17 内江师范学院 一种碑文文字提取方法、装置、设备及介质
CN117079263B (zh) * 2023-10-16 2024-01-02 内江师范学院 一种碑文文字提取方法、装置、设备及介质
CN117094882A (zh) * 2023-10-18 2023-11-21 中南大学 一种无损数字刺绣图像风格迁移方法、系统、设备及介质
CN117094882B (zh) * 2023-10-18 2024-01-12 中南大学 一种无损数字刺绣图像风格迁移方法、系统、设备及介质

Also Published As

Publication number Publication date
CN115221842B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN115221842B (zh) 一种基于小样本数据集的字体风格迁移方法、系统及设备
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN111611811B (zh) 翻译方法、装置、电子设备及计算机可读存储介质
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN111626124A (zh) Ocr图像样本生成、印刷体验证方法、装置、设备及介质
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN112905737A (zh) 文本纠错方法、装置、设备及存储介质
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN112508048A (zh) 图像描述的生成方法和装置
CN117036184A (zh) 图像合成方法、装置、电子设备及存储介质
CN113806646A (zh) 序列标注系统及序列标注模型的训练系统
CN110858307B (zh) 字符识别模型训练方法及装置、识别字符的方法及装置
CN111488460A (zh) 数据处理方法、装置和计算机可读存储介质
CN111368531B (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN110889276B (zh) 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质
CN116629211B (zh) 基于人工智能的写作方法及系统
CN116433474A (zh) 模型训练方法、字体迁移方法、装置及介质
CN113554549B (zh) 文本图像的生成方法、装置、计算机设备和存储介质
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN115017413A (zh) 推荐方法、装置、计算设备及计算机存储介质
CN114398980A (zh) 跨模态哈希模型的训练方法、编码方法、装置及电子设备
CN115617959A (zh) 问题解答方法及装置
CN113468906A (zh) 图形码提取模型构建方法、识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant