CN115170403A - 基于深度元学习和生成对抗网络的字体修复方法及系统 - Google Patents
基于深度元学习和生成对抗网络的字体修复方法及系统 Download PDFInfo
- Publication number
- CN115170403A CN115170403A CN202210563901.6A CN202210563901A CN115170403A CN 115170403 A CN115170403 A CN 115170403A CN 202210563901 A CN202210563901 A CN 202210563901A CN 115170403 A CN115170403 A CN 115170403A
- Authority
- CN
- China
- Prior art keywords
- font
- network
- data
- calligraphy
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000000547 structure data Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 41
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 claims description 9
- 238000013508 migration Methods 0.000 claims description 9
- 230000005012 migration Effects 0.000 claims description 9
- 230000003042 antagnostic effect Effects 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 4
- 230000001788 irregular Effects 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008439 repair process Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 125000004122 cyclic group Chemical group 0.000 description 9
- 238000013507 mapping Methods 0.000 description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 5
- 230000004913 activation Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 101150055297 SET1 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06T5/77—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种基于深度元学习和生成对抗网络的字体修复方法及系统,所述方法步骤为:使用数据获取模块获取已有的书法字体数据集Dataset‑1以及字体的笔画和结构数据;使用数据处理模块将数据针对不同任务进行不同方式的处理;使用Font‑Meta模块对残缺的书法字体进行补全;使用字体审核模块寻找最好的补全字体;使用字体输出模块输出修复字体。本发明提出的字体修复方法及系统,能够基于现有的数据样本学到汉字的字体笔画、结构和风格等特征,在对汉字字体缺失部位进行补全时比现有技术更加全面;本发明应用在书法字体修复领域中,能减少人工成本,提升字体修复的精度和完整程度。
Description
技术领域
本发明主要涉及到计算机视觉图像处理领域、图片文字修复技术领域,特别是涉及一种基于字体笔画、结构、轮廓的深度元学习和循环生成对抗网络的书法字体修复方法、系统。
背景技术
随着深度学习技术的快速发展和人工智能应用的普及,相关新型技术已为人们的生产生活带来了巨大的便捷。在如今,中华传统文化正在被大家所重视,字体书法正式传统文化中的一部分。而在获得中国古今的汉字书法字体时,时常会因为年代久远或者其他因素导致书法字体缺失破损,如何对于这些书法字体进行修复是现在的一个热点研究。
近年来,各种针对破损残缺的书法字体进行修复的方法层出不穷,主要分为传统方法和深度学习的方法。传统方法如专利CN105069766A一种基于汉字图像轮廓特征描述的碑文修复方法,通过对已有书法数据集进行字体结构和笔画的分割,得到一个部件笔画模板集合。然后在修复过程中,查找笔画模板中的相似匹配度最高的笔画进行填充修复,这种类型的方法虽能对字体有个很好的结构还原,但对风格较为潦草的字体(例如草书、行书等)补全的笔画风格差异较大。
如今深度学习的技术快速发展背景下,最新的一些工作引入深度神经网络和生成对抗网络的思路对缺损书法字体进行修复。CN110765339A一种基于生成对抗网络的残缺中文书法修复补全方法和CN110335212A基于条件对抗网络的缺损古籍汉字修复方法中提出利用生成对抗网络或者条件生成对抗网络来进行字体修复,均为将待修复字体直接放入神经网络模型中进行训练得到修复后的字体图片,在全局范围上进行的调整修改,并没有考虑到字体结构等特征。专利CN110570481A基于风格迁移的书法字体库自动修复方法及系统中均提出使用风格迁移的方法进行书法字体的修复,该方法虽然大大减少了传统字体分割等工作量,生成的效果也较好,但是所使用的风格迁移模型需要配对的数据集,这种数据集在实际应用场景下是很难获得的,我们难以获得该汉字在该书法类别中所对应的字体图像。
专利CN112435196基于深度学习的文字修复方法及系统中提出使用深度学习的方法进行修复,该方法首先通过文字完整性检测模块输出缺失笔画,然后利用缺失笔画匹配模块针对缺失笔画匹配相似风格笔画。该方法结合笔画信息和生成对抗网络的方法进行修复,但并未考虑汉字字体结构和局部关系等特征。并且在实际场景下,我们能获得的待修复书法字体的数据集较少,该方法无法解决小样本场景下的书法字体修复问题。
因此,亟需一种多维度字体特征考虑下,利用小样本书法字体数据进行缺失修复的方法。
发明内容
本发明的目的在于提供一种基于深度元学习和生成对抗网络的字体修复方法及系统,利用深度元学习的方法学习汉字字体笔画、轮廓、结构和局部关系等多维度字体特征,通过小样本书法字体数据进行缺损字体修复的方法。
为了达到上述目的,在本发明的第一个方面,提供一种基于深度元学习和生成对抗网络的字体修复方法,其特征在于,其包括如下步骤:
S1、使用数据获取模块获取已有的书法字体数据集Dataset-1以及字体的笔画和结构数据;
S2、使用数据处理模块将数据针对不同任务进行不同方式的处理;
S3、使用Font-Meta模块对残缺的书法字体进行补全;
S4、使用字体审核模块寻找最好的补全字体;
S5、使用字体输出模块输出修复字体。
进一步地,所述S1中所述数据集Dataset-1构建的步骤为:
S11、获取待修复的书法作品;
S12、利用覆盖矩阵对原始整幅书法作品图像进行书法字体裁剪,将裁剪后的获得的图像进行扩充或者压缩至大小为256×256的图片;
S13、对统一尺寸后的图片转为单通道,进行二值化处理,得到字的二值化图片;
S14、二值化图片集构建所述数据集Dataset-1。
进一步地,将所述数据集Dataset-1进一步处理为Dataset-11,具体步骤为:
S21、获得完整书法字体和艺术字体;
S22、选择图像熵最大的图片作为数据;
S23、随机生成不同大小的不规则形状作为字体掩码,模拟书法字体的缺损情况;
S24、字体掩码分别加入数据集Dataset-11中,得到类缺失图片集合;
S25、将类缺失图片集合进行配对,构建数据集Dataset-11。
进一步地,所述S3包括:
S31、构造字体补全网络FDR-Net,循环生成对抗网络和字体结构审核模型;
S32、利用MAML的方法对字体补全网络FDR-Net进行预训练;
S33、将字体补全网络FDR-Net修复后的字体放入循环生成对抗网络进行局部风格调整,输出风格转换后的字体图像。
进一步地,将所述数据集Dataset-11放入所述Font-Meta模块中进行学习,初始化并预训练字体补全网络FDR-Net,步骤为:
S321、获取字体笔画数据;
S322、获取字体结构数据;
S323、构造模拟书法字体残缺的数据集,进行残缺数据和原始数据配对;
S324、构造字体补全网络FDR-Net模型;
S325、训练字体补全网络FDR-Net。
进一步地,所述S33包括:
S331、初始并预训练循环生成对抗网络;
S332、得到待修复的书法字体数据,并对字体补全网络FDR-Net精调,进行风格和字体内容结构学习;
S333、预训练和精调后得到精调后的字体补全网络FDR-Net;
S334、对缺失部分进行补全,得到初步修复后的图片;
S335、将初步修复后的图片输入循环生成对抗网络中进行局部风格迁移,得到迁移后的图像。
进一步地,所述预训练字体补全网络FDR-Net,能够补全缺失部分的笔画结构,得到补全后的书法字体M1。
进一步地,所述S4包括:
S41、预训练笔画完整度网络、结构完整度网络和风格相似度网络;
S42、将风格转换后的图像输入笔画完整度网络进行打分,得到Score1;
S43、将风格转换后的图像输入结构完整度网络进行打分,得到Score2;
S44、将风格转换后的图像输入风格相似度网络进行打分,得到Score3;
S45、通过分别计算笔画完整度网络、结构完整度网络和风格相似度网络三个网络打分结果的加权平均值,能得到最终的分值序列,选择得分最高的修复后的书法字体图片进行输出。
进一步地,Font-Meta模块包括FDR-Net模块和CycleGAN模块;
FDR-Net模块,用于生成网络和深度元学习的方法学习如何进行字体补全;
ycleGAN模块,用于补全字体的局部风格转换。
在本发明的第二个方面,提供一种基于深度元学习和生成对抗网络的字体修复系统,其特征在于,其包括如下模块:
数据获取模块,用于获取已有的书法字体数据集Dataset-1以及字体的笔画和结构数据;数据处理模块,用于将数据针对不同任务进行不同方式的处理;
Font-Meta模块,用于对残缺的书法字体进行补全;
字体审核模块,用于寻找最好的补全字体;
字体输出模块,用于输出修复字体。
本发明的有益技术效果至少在于以下几点:
(1)与现有技术相比,本发明提出的基于深度元学习的方法能够基于现有的数据样本学到汉字的字体笔画、结构和风格等特征,在对汉字字体缺失部位进行补全时考虑的因素比现有技术更加全面;
(2)由于待修复的书法字体数据较少,现有技术都是基于已知大量数据的前提下进行学习,本发明利用元学习的机制,只需要少量新数据样本就能够从已有的知识池中推断出该种类型数据特征,大大减少对新数据的数量需求。
(3)现有技术均需要配对的数据集进行风格转换,采用循环生成对抗网络可以不需要配对数据集完成字体风格转换。同时加入字体审核模块,进一步提高了书法字体修复的质量。在书法字体修复领域上,该发明能大大较少人工成本,并且提升字体修复的精度和完整程度。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明实施例字体修复系统的结构示意图。
图2是本发明实施例汉字字体结构示意图。
图3是本发明实施例MAML算法流程图。
图4是本发明实施例循环生成对抗网络的算法流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提供的基于深度元学习认知字体的结构、笔画、轮廓等特征并结合循环生成对抗网络进行风格转换的书法字体修复方法。利用现有的书法字体数据集进行元训练数据集S1,通过对现有字体库中的字体笔画、字体结构和字体内容等特征进行学习以及学习缺失笔画的字体补全过程,得到各字体不同维度特征的先验知识以及元模型Font-Meta和字体结构审核模型FSR-Net。然后将待修复的数据进行处理后得到数据集S2,放入Font-Meta中进行该种类型的书法字体笔画,结构,内容,风格的学习,并通过将Font-Meta的字体补全网络FDR-Net 修复的字体放入循环生成对抗网络中进行风格再迁移,得到与原始字体风格一致的完整书法字体图片。
在一个实施例中,如图1所示,提供的基于深度元学习和循环生成对抗网络的书法字体修复系统,其包括以下模块:
数据获取模块,用于获取已有的书法字体数据集Dataset-1以及字体的笔画和结构数据;
数据处理模块,用于将数据针对不同任务进行不同方式的处理;
Font-Meta模块,用于对残缺的书法字体进行补全;
字体审核模块,用于寻找最好的补全字体;
字体输出模块,用于输出修复字体。
本实施例提供的基于深度元学习和循环生成对抗网络的书法字体修复方法,其包括如下步骤:
S1中所述数据集Dataset-1构建的步骤为:
S11、获取待修复的书法作品;
S12、原始整幅书法作品图像,利用覆盖矩阵进行书法字体裁剪,将裁剪后的获得的图像进行扩充或者压缩至大小为256×256的图片;
S13、对统一尺寸后的图片转为单通道,进行二值化处理,得到字的二值化图片;
S14、处理好的二值化图片集为所述数据集Dataset-1。
构建现有汉字字体的数据集Dataset-1具体步骤为:
首先需要获取已有的所有标准字体和艺术字体数据集,并利用K-Means的方法进行数据聚类处理,随机提取每一类中重点数据样本10个。然后将Dataset-1根据不同处理方法和不同目的分割为Dataset-11,Dataset-12,Dataset-13,Dataset-14。处理方法和不同使用目的如S1101-S1104所示:
S1101、Dataset-11是字体补全网络使用的数据集。该数据集的特点在于,随机生成像素值为0的不同大小的不规则形状作为字体掩码,模拟书法字体的缺损情况。掩码分别加入新数据集中,得到类缺失图片集合。将类缺失图片集合和原始图片进行配对,构建数据集。最后对于数据集Dataset-11进行分割为支持集和查询集(支持集和查询集在S13中会进行介绍);
S1102、Dataset-12是字体审核模块中笔画完整度网络使用的数据集。获取笔画数据集,根据新华字典总共分为101个笔画种类,设计笔画分离网络A,将Dataset-1数据集中的汉字图片进行笔画分离;
S1103、Dataset-13是字体审核模块中结构完整度网络使用的数据集。根据维基百科可知,汉字字体主要有12种不同的结构,如上下、左右、包围等,12种结构如图2所示;
S1104、Dataset-14是字体审核模块中风格相似度网络使用的数据集。是对Dataset-1 数据进行二值化处理后得到的数据集。
将所述数据集Dataset-1进一步处理为Dataset-11,具体步骤为:
S21、获得正常书法和艺术字体;
S22、利用字体信息熵选择最好的数据;
S23、随机生成不同大小的不规则形状作为字体掩码,模拟书法字体的缺损情况;
S24、字体掩码分别加入数据集Dataset-11中,得到类缺失图片集合;
S25、将类缺失图片集合进行配对,构建数据集Dataset-11。
所述S3包括:
S31、构造字体补全网络FDR-Net,循环生成对抗网络和字体结构审核模型,初始化并预训练字体补全网络FDR-Net,该网络是一个简单的变分自动编码器结构,主要包括编码器模块和解码器模块。编码器和解码器均由卷积层、归一化层、池化层等构成,编码器和解码器的网络大小和层数可以任意设置。详细的,在本实例中,采用的是5×5的卷积核和2×2的池化,步长stride为1,6层卷积层,卷积核数量分别为32、32、64、128、256、256。
初始化并预训练循环生成对抗网络,该网络主要由两个生成器G和F以及两个判别器D1 和D2所构成。
生成器G:学习映射G:X→Y,其中X是原始字体风格;Y是生成器G生成的字体风格。生成器G的主要目的在于学习能使G(x)和Y相似的映射。
生成器F:学习映射F:Y→X,接收目标字体风格,将其转换成和原字体风格相似的风格。生成器F的主要目的是学习能使F(G(x))和X相似的映射。
生成器G和F网络结构由3个卷积块、2个残差块和2个上采样块构成。每个卷积块包含一个2D卷积层和1个BatchNorm层,使用ReLU作为激活函数。每个残差块中包含两个2D 卷积层,每个卷积层后面都有一个批归一化层,设置的momentum值为0.8。每个上采样块包含一个2D转置卷积层,使用ReLU作为激活函数。
判别器D1:主要负责区分生成器F生成的图像(用F(Y)表示)和目标领域中的真实图像 (表示为X)。
判别器D2:主要负责区分生成器G生成的图像(用G(x)表示)和目标领域中的真实图像 (表示为Y)。
判别器D1和D2的架构类似PatchGAN中的判别网络架构,包含5个卷积层,5个BatchNorm 层。
S32、利用MAML的方法对字体补全网络FDR-Net进行预训练;
利用MAML的方法对字体补全网络FDR-Net进行预训练,Dataset1的数据集说明:Dataset1 称为D-meta-train数据集。设Dataset1数据集中有φ种类型的字体,Font1~Fontφ,其中M为每种字体所含有的样本数。该数据集中分为了N个Task,每个Task是对不同风格字体添加掩码后的残缺字体和完整字体的20组配对集合,如同时每个任务分为支持集和查询集,在本专利任务中,将配对好的5组数据集称为支持集,另外15组数据集作为查询集。每一个Task相当于普通深度学习模型训练过程的一个数据,因此我们需要反复在训练数据分布中抽取若干个Task组成batch,然后使用Adam优化器进行优化。
首先对任务进行定义,我们将待修复书法数据的设为F,补全网络进行修复后的数据设为O,那么每一个任务就是其中R表示补全网络。本实施例使用Rθ来表示参数为θ的字体生成器。当模型学习第i个任务Ti时,参数θ变成θ′i,适应当前任务Ti的参数θ′i使用支持集通过m步梯度下降更新模型参数获得,对于其中的一步梯度下降,计算公式为
查询集loss函数为:
对于整个所有N个任务进行损失求和,元学习目标函数为:
整个预训练过程如算法1所示,目的是得到字体补全网络FDR-Net:
FDR-Net模块,用生成网络和深度元学习的方法学习如何进行字体补全,具体元训练过程为:
首先是前两个Require。第一个Require指的是Dmeta-train中Task的分布,我们可以反复随机抽取Task,形成一个由若干个T组成的Task池,作为MAML的训练集,如图3所示。第二个Require就是学习率,MAML是基于二重梯度的,每次迭代包含两次参数更新的过程,所以有两个学习率可以调整。
步骤1:随机初始化模型参数;
步骤2:是一个循环,可以理解为一轮迭代过程或一个Epoch,当然,预训练过程也可以有多个Epoch,相当于设置Epoch;
步骤3:随机对若干个(例如5个)Task进行采样,形成一个batch;
步骤4-步骤7:第一次梯度更新过程。
复制一个原模型,计算出新的参数,用在第二轮梯度的计算过程中。利用batch中的每一个task,分别对模型的参数进行更新(5个task即更新5次)。注意这个过程在算法中是可以反复执行多次的,但是伪代码没有体现这一层循环。
步骤5:利用batch中的某一个Task中的支持集,计算每个参数的梯度。
步骤6:第一次梯度的更新。
步骤4-步骤7:结束后,MAML完成了第一次梯度更新。接下来根据第一次梯度更新得到的参数,通过gradient by gradient,计算第二次梯度更新。第二次梯度更新时计算出的梯度,直接通过Adam作用于原模型上,也就是模型真正用于更新其参数的梯度。
步骤8:这里对应第二次梯度更新的过程。这里的loss计算方法,大致与步骤5相同,但是不同点有两处:第一处是我们不再分别利用每个task的loss更新梯度,而是像常见的模型训练过程一样,计算一个batch的loss总和,对梯度进行随机梯度下降Adam;第一处是这里参与计算的样本,是Task中的查询集,在我们的例子中,即5-way*15=75个样本,目的是增强模型Task上的泛化能力,避免过拟合支持集。
步骤8结束后,模型结束在该batch中的训练,开始回到步骤3,继续采样下一个batch。
以上便是MAML预训练得到FDR-Net的全部过程。
接下来,在面对字体补全数据以及新的字体补全Task时,我们将在FDR-Net的基础上,精调(fine-tune)得到M-fine-tune。
精调过程于预训练过程大致相同,不同之处有以下几点:
步骤1中,精调不用再随机初始化参数,而是利用训练好的FDR-Net初始化参数;
步骤3中,精调只需要抽取一个Task进行学习,自然也不用形成batch。精调利用这个 Task的支持集训练模型,利用查询集测试模型;
精调没有步骤8,因为Task的查询集是用来测试模型的,目标图像对模型是未知的。因此精调过程没有第二次梯度更新,而是直接利用第一次梯度计算的结果更新参数。
S33、将补全网络FDR-Net修复后的字体放入循环生成对抗网络进行局部风格调整,输出风格转换后的字体图像,具体的,只需要获取少量目标风格书法字体(可以是完整也可是局部字体)且更具循环生成对抗网络的特性——不需要配对好的风格数据集,就能够完成原目标字体的风格转换,该模型训练中涉及对抗损失和循环一致损失:
对抗损失和生成字体图像的分布以及目标域的分布相匹配:
公式5中的x是原字体风格,y是目标字体风格。判断器DY试图区分映射G生成的风格 (即G(X))和目标字体风格y。判断器DX试图区分映射F生成的风格(即F(Y))和原始字体风格。
循环一致性损失用来避免学习中的转换器G和F相互矛盾。如果仅使用对抗损失,网络将同样一组输入字体图像映射到目标字体的任一组随机组合的图像上。因此,获得的任何映射都可以学到一种类似于目标概率分布的输出。概率xi和yi之间就会由很多中映射的方式。循环一致性损失通过减少可能映射的数量来解决这一问题。那么循环一致性的损失函数公式如
式6所示。
如果使用循环一致性损失,那么通过F(G(x))和G(F(y))进行重构的图像会分别和x,y相似。
完整的目标函数是对抗损失和循环一致性损失的加权和,如公式3所示。
L(F,G,DX,DY)=LGAN(G,X,Y,DY)+LGAN(F,Y,X,DX)+φLcyc(F,G) (7)
公式7中LGAN(G,DY,X,Y)是第一个对抗损失,LGAN(F,DX,Y,X)是第二个对抗损失。第一个对抗损失是基于生成器A和判别网络B计算的,第二个对抗损失是基于生成网络B和判别网络A计算的。目标函数需优化公式8的函数,来训练CycleGAN。
CycleGAN的训练步骤如图4所示。
将所述数据集Dataset-11放入所述Font-Meta模块中进行学习,初始化并预训练字体补全网络FDR-Net,步骤为:
S321、获取字体笔画数据;
S322、获取字体结构数据;
S323、构造模拟书法字体残缺的数据集,进行残缺数据和原始数据配对;
S324、构造字体补全网络FDR-Net模型;
S325、训练字体补全网络FDR-Net。
所述S33包括:
S331、初始并预训练循环生成对抗网络;
S332、得到待修复的书法字体数据,并对字体补全网络FDR-Net精调,进行风格和字体内容结构学习;
S333、预训练和精调后得到精调后的字体补全网络FDR-Net;
S334、对缺失部分进行补全,得到初步修复后的图片;
S335、将初步修复后的图片输入循环生成对抗网络中进行局部风格迁移,得到迁移后的图像。
预训练字体补全网络FDR-Net,能够补全缺失部分的笔画结构,得到补全后的书法字体 M1。
S4包括:
S41、预训练笔画完整度网络、结构完整度网络和风格相似度网络;
S42、将风格转换后的图像输入笔画完整度网络进行打分,笔画完整度打分。笔画完整度网络是一个浅层的全连接神经网络,网络层数、神经元个数以及优化器可以任意设置,在本实例中采用5层全连接层,使用ReLu激活函数和SGD优化器进行模型训练,得到Score1;
S43、将风格转换后的图像输入结构完整度网络进行打分,结构完整网络是一个卷积神经网络,卷积核的卷积层数同样可以任意设置。在本实例中采用4层卷积层,4层池化层和2 层全连接层,使用ReLU激活函数和Adam优化器进行模型训练,得到Score2;
S44、将风格转换后的图像输入风格相似度网络进行打分,风格相似度网络和结构完整度网络类似,采用4层卷积层,4层池化层和2层全连接层,使用ReLU激活函数和Adam优化器进行模型训练,得到Score3;
S45、通过分别计算笔画完整度网络、结构完整度网络和风格相似度网络三个网络打分结果的加权平均值,能得到最终的分值序列,选择得分最高的修复后的书法字体图片进行输出:
SCORE=α·Score1+β·Score2+γ·Score3 (9)
其中α、β、γ分别为三个网络得分占整体得分的权重。
一种基于深度元学习和生成对抗网络的字体修复系统,其特征在于,所述系统包括:
数据获取模块,用于获取已有的书法字体数据集Dataset-1以及字体的笔画和结构数据;
数据处理模块,用于将数据针对不同任务进行不同方式的处理;
Font-Meta模块,用于对残缺的书法字体进行补全;
字体审核模块,用于寻找最好的补全字体;
字体输出模块,用于输出修复字体。
综上所述,本专利提出了基于深度元学习和生成对抗网络的字体修复方法及系统,基于深度元学习和生成对抗网络的字体修复方法及系统。利用现有的书法字体数据集进行元训练数据集S1,通过对现有字体库中的字体笔画、字体结构和字体内容等特征进行学习以及学习缺失笔画的字体补全过程,得到各字体不同维度特征的先验知识以及元模型Font-Meta和字体结构审核模型FSR-Net。然后将待修复的数据进行处理后得到数据集S2,放入Font-Meta 中进行该种类型的书法字体笔画,结构,内容,风格的学习,并通过将Font-Meta的字体补全网络FDR-Net修复的字体放入循环生成对抗网络中进行风格再迁移,得到与原始字体风格一致的完整书法字体图片。
本发明上述实施例提出的字体修复方法及系统,能够基于现有的数据样本学到汉字的字体笔画、结构和风格等特征,在对汉字字体缺失部位进行补全时比现有技术更加全面;本发明应用在书法字体修复领域中,能减少人工成本,提升字体修复的精度和完整程度。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于深度元学习和生成对抗网络的字体修复方法,其特征在于,其包括如下步骤:
S1、使用数据获取模块获取已有的书法字体数据集Dataset-1以及字体的笔画和结构数据;
S2、使用数据处理模块将数据针对不同任务进行不同方式的处理;
S3、使用Font-Meta模块对残缺的书法字体进行补全;
S4、使用字体审核模块寻找最好的补全字体;
S5、使用字体输出模块输出修复字体。
2.根据权利要求1所述基于深度元学习和生成对抗网络的字体修复方法,其特征在于,所述S1中所述数据集Dataset-1构建的步骤为:
S11、获取待修复的书法作品;
S12、利用覆盖矩阵对原始整幅书法作品图像进行书法字体裁剪,将裁剪后的获得的图像进行扩充或者压缩至大小为256×256的图片;
S13、对统一尺寸后的图片转为单通道,进行二值化处理,得到字的二值化图片;
S14、二值化图片集构建所述数据集Dataset-1。
3.根据权利要求2所述基于深度元学习和生成对抗网络的字体修复方法,其特征在于,将所述数据集Dataset-1进一步处理为Dataset-11,具体步骤为:
S21、获得完整书法字体和艺术字体;
S22、选择图像熵最大的图片作为数据;
S23、随机生成不同大小的不规则形状作为字体掩码,模拟书法字体的缺损情况;
S24、字体掩码分别加入数据集Dataset-11中,得到类缺失图片集合;
S25、将类缺失图片集合进行配对,构建数据集Dataset-11。
4.根据权利要求3所述的基于深度元学习和生成对抗网络的字体修复系统,其特征在于,所述S3包括:
S31、构造字体补全网络FDR-Net,循环生成对抗网络和字体结构审核模型;
S32、利用MAML的方法对字体补全网络FDR-Net进行预训练;
S33、将字体补全网络FDR-Net修复后的字体放入循环生成对抗网络进行局部风格调整,输出风格转换后的字体图像。
5.根据权利要求4任一项所述基于深度元学习和生成对抗网络的字体修复方法,其特征在于,将所述数据集Dataset-11放入所述Font-Meta模块中进行学习,初始化并预训练字体补全网络FDR-Net,步骤为:
S321、获取字体笔画数据;
S322、获取字体结构数据;
S323、构造模拟书法字体残缺的数据集,进行残缺数据和原始数据配对;
S324、构造字体补全网络FDR-Net模型;
S325、训练字体补全网络FDR-Net。
6.根据权利要求4所述基于深度元学习和生成对抗网络的字体修复方法,其特征在于,所述S33包括:
S331、初始并预训练循环生成对抗网络;
S332、得到待修复的书法字体数据,并对字体补全网络FDR-Net精调,进行风格和字体内容结构学习;
S333、预训练和精调后得到精调后的字体补全网络FDR-Net;
S334、对缺失部分进行补全,得到初步修复后的图片;
S335、将初步修复后的图片输入循环生成对抗网络中进行局部风格迁移,得到迁移后的图像。
7.根据权利要求5所述基于深度元学习和生成对抗网络的字体修复方法,其特征在于,所述预训练字体补全网络FDR-Net,能够补全缺失部分的笔画结构,得到补全后的书法字体M1。
8.根据权利要求1所述基于深度元学习和生成对抗网络的字体修复方法,其特征在于,所述S4包括:
S41、预训练笔画完整度网络、结构完整度网络和风格相似度网络;
S42、将风格转换后的图像输入笔画完整度网络进行打分,得到Score1;
S43、将风格转换后的图像输入结构完整度网络进行打分,得到Score2;
S44、将风格转换后的图像输入风格相似度网络进行打分,得到Score3;
S45、通过分别计算笔画完整度网络、结构完整度网络和风格相似度网络三个网络打分结果的加权平均值,能得到最终的分值序列,选择得分最高的修复后的书法字体图片进行输出。
9.根据权利要求1所述基于深度元学习和生成对抗网络的字体修复方法,其特征在于,Font-Meta模块包括FDR-Net模块和CycleGAN模块;
FDR-Net模块,用于生成网络和深度元学习的方法学习如何进行字体补全;
ycleGAN模块,用于补全字体的局部风格转换。
10.一种基于深度元学习和生成对抗网络的字体修复系统,其特征在于,其包括如下模块:
数据获取模块,用于获取已有的书法字体数据集Dataset-1以及字体的笔画和结构数据;
数据处理模块,用于将数据针对不同任务进行不同方式的处理;
Font-Meta模块,用于对残缺的书法字体进行补全;
字体审核模块,用于寻找最好的补全字体;
字体输出模块,用于输出修复字体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563901.6A CN115170403A (zh) | 2022-05-23 | 2022-05-23 | 基于深度元学习和生成对抗网络的字体修复方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563901.6A CN115170403A (zh) | 2022-05-23 | 2022-05-23 | 基于深度元学习和生成对抗网络的字体修复方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170403A true CN115170403A (zh) | 2022-10-11 |
Family
ID=83484285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210563901.6A Pending CN115170403A (zh) | 2022-05-23 | 2022-05-23 | 基于深度元学习和生成对抗网络的字体修复方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170403A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091363A (zh) * | 2023-04-03 | 2023-05-09 | 南京信息工程大学 | 一种书法汉字图像修复方法及系统 |
CN117218667A (zh) * | 2023-11-07 | 2023-12-12 | 华侨大学 | 一种基于字根的中文文字识别方法及系统 |
-
2022
- 2022-05-23 CN CN202210563901.6A patent/CN115170403A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091363A (zh) * | 2023-04-03 | 2023-05-09 | 南京信息工程大学 | 一种书法汉字图像修复方法及系统 |
CN117218667A (zh) * | 2023-11-07 | 2023-12-12 | 华侨大学 | 一种基于字根的中文文字识别方法及系统 |
CN117218667B (zh) * | 2023-11-07 | 2024-03-08 | 华侨大学 | 一种基于字根的中文文字识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689086B (zh) | 基于生成式对抗网络的半监督高分遥感图像场景分类方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN108804397B (zh) | 一种基于少量目标字体的汉字字体转换生成的方法 | |
CN108304357B (zh) | 一种基于字体流形的中文字库自动生成方法 | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN110427989B (zh) | 汉字骨架自动合成方法及大规模中文字库自动生成方法 | |
CN115170403A (zh) | 基于深度元学习和生成对抗网络的字体修复方法及系统 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN108898639A (zh) | 一种图像描述方法及系统 | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN110114776A (zh) | 使用全卷积神经网络的字符识别的系统和方法 | |
CN110516724A (zh) | 可视化作战场景的高性能多层字典学习特征图像处理方法 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
CN116630183A (zh) | 一种基于生成式对抗网络的文字图像修复方法 | |
CN109033321A (zh) | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 | |
CN110659702A (zh) | 基于生成式对抗网络模型书法字帖评价系统及方法 | |
CN108805280A (zh) | 一种图像检索的方法和装置 | |
CN117557856A (zh) | 一种基于自监督学习的病理全切片特征学习方法 | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
Watanabe et al. | Generative adversarial network including referring image segmentation for text-guided image manipulation | |
CN116524352A (zh) | 一种遥感图像水体提取方法及装置 | |
CN114495163A (zh) | 基于类别激活映射的行人重识别生成学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |