CN114742714A - 一种基于骨架提取及对抗学习的汉字图像修复算法 - Google Patents
一种基于骨架提取及对抗学习的汉字图像修复算法 Download PDFInfo
- Publication number
- CN114742714A CN114742714A CN202111267383.5A CN202111267383A CN114742714A CN 114742714 A CN114742714 A CN 114742714A CN 202111267383 A CN202111267383 A CN 202111267383A CN 114742714 A CN114742714 A CN 114742714A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- skeleton
- chinese character
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 34
- 230000003042 antagnostic effect Effects 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000002950 deficient Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 40
- 230000004913 activation Effects 0.000 claims description 13
- 230000008439 repair process Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于骨架提取及对抗学习的汉字图像修复方法,包括:使用基于线条细化的骨架提取网络对汉字图像数据集进行处理,生成对应的文字骨架图像数据集,并使用随机遮罩图像进行处理,然后将成对的汉字图像及其文字骨架图像进行训练集和测试集的划分;构建汉字图像骨架提取及修复网络模型,分批次地使用创建的文字骨架图像数据集对网络模型进行训练,使得该网络具备从缺损汉字图像中提取完整文字骨架图像的能力;构建基于文字骨架的汉字图像修复网络模型,使用之前提取到的完整文字骨架图像作为先验知识指导汉字图像的修复过程;使用训练过程中所保存的模型,对之前创建的测试集中的图像进行测试。采用本发明所述方法,可以实现不需要提前知道遮罩信息的汉字图像修复任务,并且相较于其他修复算法,可以得到笔画更加清晰的汉字图像修复结果。
Description
技术领域
本发明涉及到的技术包括计算机视觉、计算机图像处理和深度学习等,其中本发明侧重于基于架提取及对抗学习的汉字图像修复算法研究。
背景技术
随着信息化时代的发展,各种多媒体设备的使用得到广泛的普及,大量的信息会以图像的形式存储在计算机中,图像也是生活中各个领域中最常见的信息形式之一,与人们的日常生活息息相关。社交媒体中的传播的图像信息中可能包含许多后来添加到这些图像中的对象,包括签名、水印、表情符号等等。这些对象的添加可以改变图像的语义,因此如何从图像中去除这些对象是计算机视觉研究的一个最新方向。同时图像信息的真实性非常重要,不留痕迹的图像编辑能力给公众信息安全带来隐患.因此,从给定图像恢复到原始图像的方法很大程度上取决于给定图像的生成机制,所以从图像中去除目标或图像修复技术是当今研究的重点之一,也是信息安全领域的一个热门话题[1]。
广义上的图像修复技术[2][3]是指通过用估计值填充缺损区域或目标区域来修复图像或者移除图像中的物体,以达到恢复不完整图像中受损部分的像素特征。图像修复技术在许多计算机视觉任务中起着关键作用[4][5]。现有的图像修复技术可分为两类:基于复制移动的方法(Copy-Move Methods)和基于机器学习的图像填充(Image Inpainting)的方法。基于复制移动的方法通过从同一幅或另一幅图像的某个区域提取一个部分,然后将其复制到想要移除的对象或缺损区域来修复图像。由于其简单性,该技术被广泛用于对象去除任务,但不适用于人脸图像或自然场景等复杂情况。为了消除划痕、噪声等问题来修复受损的旧图像。可以通过机器学习的方式用估计值填充目标区域米修复图像,这种方法也可用于消除任何类型的失真。
随着深度学习的发展,基于机器学习的图像修复工作已经可以得到不错的效果,但是大部分的研究都是针对自然风景图像进行的,这些方法在文字图像的修复任务中往往会产生随机模糊的线条。目前专门针对字符图像的研究比较少,大多数研究集中在英语这一类字符数量较小的文字中,例如大小写字符共52个的英文等语言可引入分类思想,但是中文汉字数量庞大,无法复用这类方法,专门针对汉字这样字符数量庞大的文字图像修复研究寥寥无几。同时传统修复算法多引入缺损区域的遮罩信息作为先验知识,这些条件都限制了上述方法在汉字图像修复中的应用。而在文物保护等领域,数字化建设极为重要,其中针对汉字书法、古籍、碑文等信息的数字化采集通常会通过扫描、摄影等方式获取计算机图像信息,其中的中文汉字字符图像信息,不但承载着内容信息,同时也有极高的文化价值和研究价值。除了文物数字化,中文汉字图像也大量存在于手写输入、文件扫描以及日常照片中。这些物品中的文字图像信息由于老化损坏、不当存贮等原因,会出现缺损的情况。对这汉字图像中些缺损信息进行填充的过程被称为汉字图像修复。修复这些中文信息可以更加清晰的表现文本内容,且更有利于文字识别任务。因此,针对汉字图像修复的研究工作在文物保护以及实际应用中都具有巨大的意义。
发明内容
为了解决现有技术中的问题,本发明提供一种基于骨架提取及对抗学习的汉字图像修复算法,解决现有开源数据集不足、现有修复算法在汉字图像修复上不适用等问题。
为了达到上述发明目的,本发明采用的技术方案如下:
一种基于骨架提取及对抗学习的汉字图像修复方法,利用文字骨架图像作为一种先验知识,并结合文字风格迁移的思想,将汉字图像中的笔画风格和文字骨架图像中的结构化信息进行融合,最终实现缺损汉字图像修复的修复任务,具体包括下列步骤:
(1)使用随机生成的成对线条图像(粗细不一的线条图像及粗细均匀线条图像),来训练一个基于线条细化的骨架提取网络,用于制作汉字图像及其文字骨架图像数据集,并使用随机遮罩图像对数据集进行处理,制作并划分用于汉字修复任务的数据集。
(2)使用对抗学习的思想,使用上一个步骤中生成的汉字图像及其文字骨架图像数据集,训练一个汉字图像骨架提取及修复网络,该网络的输入是缺损的汉字图像,经过该网络模型的处理后,生成一个完整的文字骨架图像。该文字骨架图像剔除了汉字的笔画风格特征,只保留结构化的汉字笔画信息,可以作为一种先验知识指导后续修复任务。
(3)使用缺损的汉字图像及上一个步骤中生成的完整文字骨架图像,训练一个基于对抗学习的汉字图像修复网络,该网络通过两个编码器分别对文字骨架图像和缺损汉字图像进行特征提取,再使用一个解码器对两种特征进行融合,最终实现汉字图像的修复任务。
本发明的有益效果为:采用本发明所述方法,能够实现不需要提前知道遮罩区域信息的汉字图像修复任务。针对中文这一类字符数量庞大的文字系统,该算法的修复结果可以得到笔画更加流畅的修复结果。
附图说明
图1为本发明提出的基于线条细化的骨架提取网络Skeleton-Net的结构图。
图2为本发明提出的汉字图像骨架提取及修复网络SRGAN的结构图。
图3为本发明提出的基于文字骨架的汉字图像修复网络SCGAN的结构图。
图4为本发明提出的数据集中的汉字图像及其文字骨架图像展示(汉字图像及其文字骨架图像展示。第一行为完整汉字图像,第二行为对应的文字骨架图像)。
图5为本发明起提出方法的汉字图像修复结果展示图(汉字图像修复结果展示图。第一行为完整汉字图像,第二行为缺损的汉字图像,第三行为经过SRGAN的文字骨架提取及修复结果,第四行为SCGAN的最终汉字图像修复结果)。
具体实施方式
下面结合附图,对本发明的技术方案作进一步的描述。
本发明受到基于先验知识的图像修复技术和文字风格迁移技术的启发,使用文字骨架图像作为先验知识来指导文字图像的修复。文字骨架图像可以在剔除文字笔画风格的同时保留文字图像的结构信息,对文字图像的修复过程具有指导作用。鉴于以上内容,本发明提出一种基于骨架提取及对抗学习的中文图像修复算法,该算法由基于对抗学习的文字骨架提取及修复网络SRGAN和基于文字骨架图像的汉字图像修复网络SCGAN组成。SRGAN使用骨架提取的思想去除文字笔画风格,对输入的缺损文字图像进行骨架提取和修复,并得到完整的文字骨架图像。SCGAN借鉴风格迁移相关算法研究,将来自输入缺损文字图像的风格信息和来自SRGAN的文字骨架图像中的结构信息进行混合,最终得到完整的文字图像修复结果。同时本发明提出了一个基于线条细化的文字骨架提取算法 Skeleton-Net,并用于制作中文汉字图像及其骨架数据集,解决了数据集匮乏的问题。
本发明的具体实施过程如下:
1、训练基于线条细化的骨架提取网络SkeIeton-Net
因为文字图像与线条图像具有相似对的线条型结构,受到线条矢量化相关研究的启发,本发明使用随机生成的粗细不一的线条及对应均匀线条图像作为训练集,通过对抗性训练的方式来训练一个线条细化网络。然后将网络训练后的模型应用与文字图像,来生成相对应的文字骨架图像。
网络整体采用对抗式训练,对于生成器G采用长卷积的模式,共32层,包含11个卷积块,前10个卷积块都遵循Conv-BatchNorm-ReLU架构,第一层边缘填充大小为4,卷积核大小9×9,步长为1,这一层是为了扩大卷积的感受野,以保留图像的全局特征和并增强网络的适用性。后面9个卷积块不减小图像尺寸也不改变通道数,特征图尺寸保持不变,通道数维持在64,每个卷积层缘填充大小为1,卷积核大小3×3,步长为1。最后一层使用Sigmoid激活函数将结果映射回(0,1)的范围内。为了生成更加清晰的骨架图像,采用二值分类判别器D来判别图像的真假,判别器使用Conv-BatchNorm-LeakyReLu架构。
该网路模型的损失函数分为两个部分,包括生成器的L2损失和GAN的生成对抗损失。设x和xgt分别为网络输入图像和目标图像,生成器输入为图像序列x={x1,x2,...xn},n为训练批次大小,生成器输出表示为xpred=G(x)。成对图像的像素间的差异使用L2范数来计算,公式如下:
其中||·||2表示欧式距离。该算法使用生成对抗网络思想进行训练,对抗损失函数公式如下:
Skeleton-Net网络的目标损失函数公式如下:
LG=L2+λadvLadv
其中,λadv是该项对总损失贡献的权重参数,这里希望弱化判别器的作用只起到辅助作用,本发明中选用较小值0.2作为判别损失权重。
2、汉字图像及其骨架图像数据集制作及划分
利用基于线条细化的骨架提取算法来处理汉字图像,来制作对用的文字骨架图像图像。本发明中的原始中文图像收集时,采用的是的根据收集到的字体文件来生成对应风格的文字图像,同时加入了部分来着CASIA-HWDB数据集中的手写汉字图像来增强数据集的普适性。实际实验中,为了平衡性能,对于建立的成对中文汉字图像及其骨架数据集进行了划分,如表1所示。
表1汉字图像及其骨架数据集总量及划分表
训练集 | 验证集 | 测试集 | 数量总和 | |
打印字体 | 187750 | 56325 | 56325 | 300400 |
书法字体 | 37550 | 18775 | 18775 | 75100 |
CASIA-HWDB | 18755 | 11265 | 11265 | 41305 |
合计 | 244075 | 86365 | 86365 | 416805 |
数据集覆盖国标一级字库3755个汉字。不同字体按照6∶2∶2的比例依次划分为训练集、验证集和测试集合。训练集包含打印字体50种、书法及风格化字体10种以及手写字体5种,合计244075张图像。验证集与测试集合都包含打印字体15种、书法及风格化字体5种以及手写字体3种,合计86365张图像。数据制作中可以使用本文对图像进行标注方在其他任务中的使用。
3、汉字图像的骨架提取及骨架修复算法SRGAN
在这一部分,本发明提出一个基于GAN的文字图像骨架提取及骨架修复网络SRGAN,该模型由文字骨架提取及修复生成器Gr和判别器Dr组成,网络模型结构如图2所示。生成器Gr分成两个部分,第一个部分的网络结构使用与Skeleton-Net中一致的长卷积结构,作用是对输入的缺损汉字图像进行细化,得到缺损的文字骨架信息。第二个部分采用编码器-解码器结构,并加入U-Net网络中的跳跃链接结构,来生成更加清晰的文字骨架图像。
Gr的编码器部分称作E,由4个卷积块φ组成,共24个卷积层,可表示为其中每个卷积块φ都具有相同的结构,其中含两个部分卷积块 每个部分卷积块都遵循Conv-BatchNorm-ELU结构。只增加图像的通道数而不减小图像尺寸,使用大小为3×3的卷积核,边缘填充尺寸为1的卷积层,表示为C_3_1_1,使用卷积核大小为2×2,步长为2的卷积层,表示为C_2_0_2来减小特征图尺寸,进一步提取特征。因此编码器部分的4个卷积块可表示为φl=(C_3_1_1,C_2_0_2)。在编码器部分均使用ELU激活函数来代替ReLU激活函数使得特征图分布均值为0以此加快训练速度,同时该激活函数为单侧饱和可以更好的进行收敛。
在生成器Gr的解码器部分与编码器部分相对称,由4个反卷积块组成,每一块分别连接编码器部分相同尺寸特征图后再进行上采样,使用的是ReLU激活函数,并在最后一层使用Sigmoid激活函数将图像分布映射回(0,1),得到最终输出的完整文字骨架图像。
在损失函数设计部分,设该网络的输入为x={x1,x2,...xn},生成网络的目标图像为xgt。设训练批次大小为n,生成器最终输出表示为xpred=G(x)。因为生成器Gr分两个部分,分别执行对缺损文字图像的骨架提取和骨架修复任务,因此需要对两个部分别设置损失函数,来约束网络相对部分的功能。网络前半部分的输出是一个中间结果表示为其目标图像表示为使用L2范数来强调提到的骨架图像和目标图像之间对应像素之间的差异,如公如下:
生成器Gr的目的从缺损文字图像中提取并修复出完整的文字骨架图像,这里也使用L2损失来计算生成文字骨架图像和真实目标图像之间像素对应位置间的差异,公式如下:
其中βl表示每一项对总损失的贡献权重,φl表示经过与训练的VGG19 网络用来提取经过第1个卷积块后的特征图像,L是其中卷积块的数量。||·||1表示L1范数,在实际的使用过程中,生成对抗网络的表现会与理论上存在一些差距,如果只使用传统的GAN损失函数,会导致GAN网络的训练不稳定,因此本文加入上述额外损失函数,用于稳定训练,因此该网络模型的对抗损失函数如公式如下:
在定义了以上不同的损失函数来对网络的性能进行评价后,就可以得到网络整体优化的目标函数方程式,公式如下:
4、基于文字骨架的汉字图像修复算法SCGAN
基于文字骨架这一先验知识的汉字图像修复网络模块在整体上也采用对抗式训练模型SCGAN,网络的详细结构图2所示。文字骨架图像可以看作完全剔除了汉字的笔画风格信息的标准文字结构,而初始的缺损汉字图像可以提供一定的笔画风格特征信息,因此网络的生成器Gc部分采用两个编码器E1和E2分别对输入缺损汉字图像和作为先验知识的文字骨架图像进行特征提取。
编码器E2的作用是对文字骨架图像进行特征提取,它由3个卷积块φ组成,共24层,可表示为即N表示编码器E2中卷积块的数量,与SRGAN 类,每个卷积块中包含两个子块,这是为了将扩大通道数和图像尺寸下采样分开进行来增加网络的深度。子块负责在不减小上一层输入特征图尺寸的同时将通道数进行扩展,使用卷核大小为3×3的卷积核进行卷积,边缘填充尺寸为1,步长为1,该卷积层可表示C_3_1_1,子块使用卷积核尺寸2×2,步长为2的卷积层C_2_0_1来进行特征图的下采样,用卷积和ELU激活函数代替传统卷积神经网络中的池化层。这两个子块都使用Conv-BatchNorm-ELU的结构。
编码器E1的作用是作为主编码器对输入的缺损文字图像进行特征提取,它与编码器E2有着相似的网络结构,在层数上略有不同。同时E2使用 Instance-Normalization(IN)而非Batch-Normalization(BN)进行归一化操作。
SCGAN网络的损失函数设计与SRGAN类似,包括L2损失和感知损。设该整个网络的输入x={x1,x2,...xn},生成网络的目标图像为xgt,由生成器Gr所生成的文字骨架图像表示为网络整体的最终输出表示为生成器Gc通过两个编码器,分别对文字骨架图像和输入缺损文字图像x进行特征的提取,并在解码器部分将来自两个编码器的特征进行混合上采样,最终完成对缺损文字图像的修复任务。使用L2范数即均方误差损失来计算生成的汉字图像与真实目标图像xgt之间对应像素的差异,公式如下:
其中表示βl每一项对总损失的贡献权重,φl表示经过与训练的VGG19 网络。DCGAN整体上也采用对抗学习的方式,生成对抗损失公式如下:
基于文字骨架的文字图像在修复网络整体的目标函数公式如下:
本发明中的网络模型是基于Pytorch框架下,使用Python语言进行搭建的。提供了一种基于骨架提取及对抗学习的汉字图像修复算法。其首先使用基于线条细化的骨架提取网络Skeleton-Net对汉字图像数据集进行处理,生成对用文字骨架图像数据集,该数据集解决了用于图像修复任务研究的汉字图像数据集匮乏问题。然后提出一个文字图像骨架提取及修复网络SRGAN,实现了从缺损汉字图像中剔除笔画风格特征,并对缺损的文字骨架进行修复的任务。该方法模型所生成的文字骨架图像结果,将作为一种先验知识去指导后续的修复任务。最后提出一个基于文字骨架的汉字图像修复算法网络SCGAN,受到文字风格迁移算法的启发,使用两个编码网络分别对文字骨架图像提供的结构特征和输入缺损汉字图像提供的文字笔画风格特征进行提取,再使用一个解码器网络进行特征混合,最终实现不需要提供缺损区域遮罩信息的汉字图像的修复工作。与其他图像修复算法相比,本发明更具挑战性,也更适用于汉字这一类字符数量庞大的语言体系的文字图像修复任务,是一个比较先进的汉字图像修复方法。
应理解,上述实施例仅用于说明本发明而不用于限制本发明的范围。对于本发明创造所属技术领域技术人员来说,在不脱离本发明创造构思的前提下,可以做出若干改动或替换,都应当视为属于本发明创造的保护范围。
参考文献:
[1]Isogawa M,Mikami D,Iwai D,et al.Mask Optimization for ImageInpainting[J].IEEE Access,2018,6:69728-69741.
[2]Criminisi A,P′erez P,Toyama K.Region filling and object removal byexemplarbased image inpainting[J].IEEE Transactions on image processing,2004,13(9):1200-1212.
[3]Pathak D,Krahenbuhl P,Donahue J,et al.Context encoders:Featurelearning by inpainting[C].In IEEE Conference on Computer Vision and PatternRecognition,2016:2536-2544.
[4]Radford A,Metz L,Chintala S.Unsupervised Representation Learningwith Deep Convolutional Generative Adversarial Networks[C].In InternationalConference on Learning Representations,2016.
[5]Yang C,Lu X,Lin Z,et al.High-resolution image inpainting usingmulti-scale neural patch synthesis[C].In Proceedings of the IEEE conferenceon computer vision and pattern recognition,2017:6721-6729.
Claims (1)
1.一种基于骨架提取及对抗学习的汉字图像修复算法,具体包括下列五个步骤:
步骤1:使用随机生成的成对线条图像来训练一个基于线条细化的骨架提取网络,并用于制作汉字图像及其文字骨架图像数据集,该步骤可分为以下三小步。
(i)制作随机线条图像对,使用直线、圆形和矩形来生成随机线条,用于模拟汉字中的横平竖直以及撇捺等曲线结构。作为输入的线条图像分辨率为128×128像素,线条宽度1到20像素,目标线条图像中线条均为2像素。生成用于训练骨架提取网络的线条对数据集共5000张。
(ii)执行骨架提取网络的训练操作,使用上一个小步生成数据来训练一个对抗学习网络。网络中生成器G采用长卷积的模式,共32层,包含11个卷积块,前10个卷积块都遵循Conv-BatchNorm-ReLU架构,第一层边缘填充大小为4,卷积核大小9×9,步长为1,这一层是为了扩大卷积的感受野,以保留图像的全局特征和并增强网络的适用性。后面9个卷积块不减小图像尺寸也不改变通道数,特征图尺寸保持不变,通道数维持在64,每个卷积层缘填充大小为1,卷积核大小3×3,步长为1。最后一层使用Sigmoid激活函数将结果映射回(0,1)的范围内。为了生成更加清晰的骨架图像,采用二值分类判别器D来判别图像的真假,判别器使用Conv-BatchNorm-LeakyReLu架构。
(iii)使用训练后的骨架提取网络处理汉字图像来制作文字骨架图像数据集。
步骤2:使用对抗学习的思想,使用上一个步骤中生成的汉字图像及其文字骨架图像数据集,训练一个汉字图像骨架提取及修复网络SRGAN,该网络的输入是缺损的汉字图像,经过该网络模型的处理后,生成一个完整的文字骨架图像。
该网络整体为生成对抗学习网络,生成器Gr的编码器部分称作E,由4个卷积块φ组成,表示为其中每个卷积块φ都具有相同的结构含两个部分卷积块 每个部分卷积块都遵循Conv-BatchNorm-ELU结构。只增加图像的通道数而不减小图像尺寸,使用大小为3×3的卷积核,边缘填充尺寸为1的卷积层,表示为C_3_1_1,使用卷积核大小为2×2,步长为2的卷积层,表示为C_2_0_2来减小特征图尺寸,进一步提取特征。编码器部分的4个卷积块可表示为φ1=(C_3_1_1,C_2_0_2)。在编码器部分均使用ELU激活函数来代替ReLU激活函数。
在生成器Gr的解码器部分与编码器部分相对称,由4个反卷积块组成,每一块分别连接编码器部分相同尺寸特征图后再进行上采样,使用的是ReLU激活函数,并在最后一层使用Sigmoid激活函数将图像分布映射回(0,1),得到最终输出的完整文字骨架图像。
在损失函数设计部分,该网络的输入表示为x={x1,x2,...xn},生成网络的目标图像为xgt。设训练批次大小为n,生成器最终输出表示为xpred=G(x)。因为生成器Gr分两个部分,分别执行对缺损文字图像的骨架提取和骨架修复任务,因此需要对两个部分别设置损失函数,来约束网络相对部分的功能。网络前半部分的输出是一个中间结果表示为其目标图像表示为使用L2范数来强调提到的骨架图像和目标图像之间对应像素之间的差异,如公如下:
生成器Gr的目的从缺损文字图像中提取并修复出完整的文字骨架图像,这里也使用L2损失来计算生成文字骨架图像和真实目标图像之间像素对应位置间的差异,公式如下:
其中β1表示每一项对总损失的贡献权重,φ1表示经过与训练的VGG19网络用来提取经过第1个卷积块后的特征图像,L是其中卷积块的数量。||·||1表示L1范数,在实际的使用过程中,生成对抗网络的表现会与理论上存在一些差距,如果只使用传统的GAN损失函数,会导致GAN网络的训练不稳定,因此本文加入上述额外损失函数,用于稳定训练,因此该网络模型的对抗损失函数如公式如下:
网络整体优化的目标函数方程式公式如下:
步骤3:使用缺损的汉字图像及上一个步骤中生成的完整文字骨架图像,训练一个基于对抗学习的汉字图像修复网络SCGAN,该网络通过两个编码器E1和E2分别对文字骨架图像和缺损汉字图像进行特征提取,再使用一个解码器对两种特征进行融合,最终实现汉字图像的修复任务。
编码器E2由3个卷积块φ组成,共24层,可表示为即N表示编码器E2中卷积块的数量。每个卷积块中包含两个子块,子块负责在不减小上一层输入特征图尺寸的同时将通道数进行扩展,使用卷核大小为3×3的卷积核进行卷积,边缘填充尺寸为l,步长为l,该卷积层可表示C_3_1_1,子块使用卷积核尺寸2×2,步长为2的卷积层C_2_0_1来进行特征图的下采样,用卷积和ELU激活函数代替传统卷积神经网络中的池化层。这两个子块都使用Conv-BatchNorm-ELU的结构。
编码器E1与编码器E2有着相似的网络结构,在层数上略有不同。同时E2使用Instance-Normalization(IN)而非Batch-Normalization(BN)进行归一化操作。
SCGAN网络的损失函数设计与SRGAN类似,包括L2损失和感知损。设该整个网络的输入x={x1,x2,...xn},生成网络的目标图像为xgt,由生成器Gr所生成的文字骨架图像表示为网络整体的最终输出表示为生成器Gc通过两个编码器,分别对文字骨架图像和输入缺损文字图像x进行特征的提取,并在解码器部分将来自两个编码器的特征进行混合上采样,最终完成对缺损文字图像的修复任务。使用L2范数即均方误差损失来计算生成的汉字图像与真实目标图像xgt之间对应像素的差异,公式如下:
其中表示βl每一项对总损失的贡献权重,φl表示经过与训练的VGG19网络。DCGAN整体上也采用对抗学习的方式,生成对抗损失公式如下:
基于文字骨架的文字图像在修复网络整体的目标函数公式如下:
步骤4:利用Nvidia GPU,分批次(batch)地使用新创建的训练集,对构建的网络模型进行训练,并通过误差反向传播算法对模型进行不断的优化。
步骤5:使用训练过程中保存的模型,对新创建的测试集中的图像进行测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111267383.5A CN114742714A (zh) | 2021-10-29 | 2021-10-29 | 一种基于骨架提取及对抗学习的汉字图像修复算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111267383.5A CN114742714A (zh) | 2021-10-29 | 2021-10-29 | 一种基于骨架提取及对抗学习的汉字图像修复算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114742714A true CN114742714A (zh) | 2022-07-12 |
Family
ID=82273804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111267383.5A Pending CN114742714A (zh) | 2021-10-29 | 2021-10-29 | 一种基于骨架提取及对抗学习的汉字图像修复算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114742714A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240201A (zh) * | 2022-09-21 | 2022-10-25 | 江西师范大学 | 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法 |
CN115457568A (zh) * | 2022-09-20 | 2022-12-09 | 吉林大学 | 一种基于生成对抗网络的历史文档图像降噪方法及系统 |
CN115797216A (zh) * | 2022-12-14 | 2023-03-14 | 齐鲁工业大学 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
CN116091363A (zh) * | 2023-04-03 | 2023-05-09 | 南京信息工程大学 | 一种书法汉字图像修复方法及系统 |
CN116596753A (zh) * | 2023-07-20 | 2023-08-15 | 哈尔滨工程大学三亚南海创新发展基地 | 一种基于风格迁移网络的声学图像数据集扩充方法和系统 |
CN117496531A (zh) * | 2023-11-02 | 2024-02-02 | 四川轻化工大学 | 一种可减少汉字识别资源开销的卷积自编码器构建方法 |
CN117649365A (zh) * | 2023-11-16 | 2024-03-05 | 西南交通大学 | 基于卷积神经网络和扩散模型的纸本经图数字化修复方法 |
-
2021
- 2021-10-29 CN CN202111267383.5A patent/CN114742714A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457568A (zh) * | 2022-09-20 | 2022-12-09 | 吉林大学 | 一种基于生成对抗网络的历史文档图像降噪方法及系统 |
CN115240201A (zh) * | 2022-09-21 | 2022-10-25 | 江西师范大学 | 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法 |
CN115797216A (zh) * | 2022-12-14 | 2023-03-14 | 齐鲁工业大学 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
CN115797216B (zh) * | 2022-12-14 | 2024-05-24 | 齐鲁工业大学 | 一种基于自编码网络的碑文文字修复模型及修复方法 |
CN116091363A (zh) * | 2023-04-03 | 2023-05-09 | 南京信息工程大学 | 一种书法汉字图像修复方法及系统 |
CN116596753A (zh) * | 2023-07-20 | 2023-08-15 | 哈尔滨工程大学三亚南海创新发展基地 | 一种基于风格迁移网络的声学图像数据集扩充方法和系统 |
CN116596753B (zh) * | 2023-07-20 | 2024-02-02 | 哈尔滨工程大学三亚南海创新发展基地 | 一种基于风格迁移网络的声学图像数据集扩充方法和系统 |
CN117496531A (zh) * | 2023-11-02 | 2024-02-02 | 四川轻化工大学 | 一种可减少汉字识别资源开销的卷积自编码器构建方法 |
CN117496531B (zh) * | 2023-11-02 | 2024-05-24 | 四川轻化工大学 | 一种可减少汉字识别资源开销的卷积自编码器构建方法 |
CN117649365A (zh) * | 2023-11-16 | 2024-03-05 | 西南交通大学 | 基于卷积神经网络和扩散模型的纸本经图数字化修复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114742714A (zh) | 一种基于骨架提取及对抗学习的汉字图像修复算法 | |
Jiang et al. | Scfont: Structure-guided chinese font generation via deep stacked networks | |
CN109903223B (zh) | 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法 | |
CN110276354B (zh) | 一种高分辨率街景图片语义分割训练与实时分割方法 | |
CN111723585A (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN112907598B (zh) | 一种基于注意力cnn文档证件类图像篡改检测方法 | |
CN113989129A (zh) | 基于门控和上下文注意力机制的图像修复方法 | |
CN113657404B (zh) | 一种东巴象形文字的图像处理方法 | |
CN112036137A (zh) | 一种基于深度学习的多风格书法数字墨水仿真方法和系统 | |
CN112270651A (zh) | 一种基于多尺度判别生成对抗网络的图像修复方法 | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN116630183A (zh) | 一种基于生成式对抗网络的文字图像修复方法 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN114626984A (zh) | 中文文本图像的超分辨率重建方法 | |
Liu et al. | Textdiff: Mask-guided residual diffusion models for scene text image super-resolution | |
CN116385289B (zh) | 一种基于渐进式的碑文文字图像修复模型及修复方法 | |
CN116402067B (zh) | 面向多语种文字风格保持的跨语言自监督生成方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN115346224A (zh) | 基于多级语义引导生成对抗网络的汉字图像修复方法 | |
CN113688715A (zh) | 面部表情识别方法及系统 | |
CN113901913A (zh) | 一种用于古籍文档图像二值化的卷积网络 | |
Li et al. | Webpage saliency prediction with two-stage generative adversarial networks | |
CN117079263B (zh) | 一种碑文文字提取方法、装置、设备及介质 | |
CN116863032B (zh) | 一种基于生成对抗网络的洪涝灾害场景生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |