CN116630183A - 一种基于生成式对抗网络的文字图像修复方法 - Google Patents
一种基于生成式对抗网络的文字图像修复方法 Download PDFInfo
- Publication number
- CN116630183A CN116630183A CN202310528706.4A CN202310528706A CN116630183A CN 116630183 A CN116630183 A CN 116630183A CN 202310528706 A CN202310528706 A CN 202310528706A CN 116630183 A CN116630183 A CN 116630183A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- character
- edge
- countermeasure network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 29
- 230000008439 repair process Effects 0.000 claims description 29
- 230000008447 perception Effects 0.000 claims description 8
- 230000001788 irregular Effects 0.000 claims description 7
- 238000003708 edge detection Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G06T5/77—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于生成式对抗网络的文字图像修复方法,包括下列步骤:S1:搜集含有铭文的图像和随机的遮盖图像,进行尺度归一化生成k×k像素的图像,建立铭文图像数据库,其中k取正整数;S2:构建一种生成式对抗网络;S3:以铭文图像数据库中的图像作为训练样本,对生成式对抗网络进行训练,优化生成式对抗网络中生成器和鉴别器的参数;S4:将待修复的文字图像中被遮挡或损坏区域的像素值用生成文字图像的对应区域的像素值来替换。本发明较好地模拟文字图像的结构特征,提高了文字图片修复结果的准确性与质量,有效地修复破损或被污染的文字图像,为图像修复提供了一种新的方法和途径。
Description
技术领域
本发明属于文物修复技术领域,具体涉及一种基于生成式对抗网络的文字图像修复方法。
背景技术
图像修复是图像处理中极其重要的部分。图像修复根据图像完好部分的信息,来填补有遮挡、破损或是多余的部分。可用于去除照片的遮挡,修复破损的文物图像,图像数据预处理等领域。
传统的图像修复技术往往需要缺陷部分的形状特定,并且纹理重复简单,这局限了图像修复的应用场景。随着计算机运算能力的提升和算法模型的成熟,深度学习技术在计算机视觉的诸多领域取得了丰硕的成果。蒙特利尔大学的学者Ian Goodfellow于2014年提出“生成式对抗网络”的概念,极大地促进了生成模型的发展,各种演进的模型在近两年应运而生。
生成式对抗网络基本思想源自博弈论,由一个生成器和一个鉴别器构成,通过对抗学习的方式来训练。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入的是真实数据还是生成的样本。通过对大量同类数据的学习,拟合出数据的概率分布,并生成同类型的数据,这与图像修复的目标相契合。
发明内容
本发明针对现有技术的不足提供一种基于生成式对抗网络的文字图像修复方法,其目的在于克服传统图像修复技术要求待修复部分的形状特定、纹理重复简单的缺点,引入先进的生成式对抗网络概念,实现古文字图像的修复。
本发明采用的技术方案是:
一种基于生成式对抗网络的文字图像修复方法,包括下列步骤:
S1:搜集含有铭文的图像和随机的遮盖图像,进行尺度归一化生成k×k像素的图像,建立铭文图像数据库,其中k取正整数;
S2:构建一种生成式对抗网络;
S3:以铭文图像数据库中的图像作为训练样本,对生成式对抗网络进行训练,优化生成式对抗网络中生成器和鉴别器的参数;
S4:将服从正态分布的随机向量输入到S3中已训练好的生成器,生成文字图像,将待修复文字图像的完好无损区域与生成文字图像的相应区域进行对比,不断调整输入向量,直至两者相似,最终将待修复的文字图像中被遮挡或损坏区域的像素值用生成文字图像的对应区域的像素值来替换。
可选的,S1具体包括:
从电子版古籍中扫描截取古文字的图像,不规则的mask遮盖图像数据集使用NVIDIA Irregular Mask Dataset:Testing Set;二者拼接成待修复的破损文字图像;之后将破损文字图像通过canny边缘检测算法得到其边缘图像,一同组成训练网络的输入图像信息。
可选的,所述的S2中构建的生成式对抗网络包括1个生成器G和1个鉴别器D,生成器的输出与鉴别器的输入相连,鉴别器的判别结果再反馈至生成器;
生成器部分将所有的普通卷积替换成了门控卷积,采用了粗细两级网络;粗网络由门控卷积和膨胀门控卷积构成,采用了编解码结构进行上采样与下采样,用来修复一个粗略的结果;细网络由两个分支构成,在一个分支中加入了基于上下文的注意力机制;
鉴别器使用了SN-PatchGAN网络,用于训练自由形式的图像修复网络。
可选的,所述的S2中构建的生成式对抗网络的损失函数由对抗损失函数、重构损失函数和感知损失函数构成;
其中GAN网络部分用到的对抗损失函数LGAN,其生成器G为:
鉴别器D为:
其中,x表示真实数据样本,z表示噪声,Pdata(x)和Pz(z)分别表示在数据集中的原图X中定义的真实数据x概率分布和潜在空间Z上定义的潜在变量z概率分布,D(x)表示将数据x喂入判别器D返回的值,G(x)表示将噪声z喂入生成器G返回的值;
重构损失函数为:
其中yi为第i个样本的真实值ground truth;f(xi)为本模型输出,即第i个样本的预测值;n为样本个数;
感知损失函数为:
其中φ为损失网络,j表示网络的第j层,Cj、Hj和Wj分别表示第j层feature_map的通道数、高和宽;
损失函数为:
L=λ1LGAN+λ2LSmoothL1+λ3Lperceptual;
λ1、λ2和λ3分别表示对抗损失函数、重构损失函数和感知损失函数的权重值。
可选的,所述的损失网络φ采用预训练的VGG16网络,提取原图像与修复图像在VGG16网络中各个卷积层输出的特征,构造感知损失。
可选的,所述的S3和S4具体包括:
将待处理文字图像I输入粗修复网络,通过边缘检测算法得到文字笔画边缘图像I-edge及标识缺失像素位置的掩膜M;
掩膜M在通道维度被拼接在待处理文字图像I和文字笔画边缘图像I-edge的后面,形成4通道的[I,M]和[I-edge,M]后,作为粗网络的输入,分别通过编码器-解码器输出的修复结果结合后得到粗修复图像I-rough,将粗修复图像I-rough与掩膜M拼接形成[I-rough,M]送入细化网络的生成器,修复后得到修复图像I-inpaint=G([I-rough,M]);
判别器D的输入是修复图像I-inpaint和对应的真实完整图像I-gt,判别器D对修复图像I-inpaint和对应的真实完整图像I-gt分别评分,并区分。
可选的,所述的待处理文字图像I的尺寸为512×512,文字笔画边缘图像I-edge为与待处理文字图像I一一对应的二值图,文字笔画边缘图像I-edge上像素值为1的部分,对应待处理文字图像I中文字字形边缘部分,掩膜M是二值单通道掩膜,宽高与待处理文字图像I相同,掩膜M上每个像素的值为0或1,分别对应图像上的完整像素和缺失像素。
本发明的优点为:
本发明本发明通过引入生成式对抗网络的方法,较好地模拟文字图像的结构特征,提高了文字图片修复结果的准确性与质量,有效地修复破损或被污染的文字图像,为图像修复提供了一种新的方法和途径,在图像修复算法、考古发掘、文物数字化保护等领域有重要的应用价值。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本发明的基于生成式对抗网络的文字图像修复方法的流程图;
图2为本发明的生成器和鉴别器的结构图;
图3为应用例中修复前的文字图;
图4为应用例中修复后的文字图;
图5为本发明在文字不同破损程度时的修复效果;
图6为本发明与其他主流自然图像修复算法的修复效果对比。
具体实施方式
采用全新的铭文数据集代替标准自然图像数据集进行网络训练,构建一种粗-细两段式生成式对抗网络,加入图像边缘信息作为先验,提高修复质量,加入PerceptualLoss(感知损失),增强输出特征的细节信息。
本发明的基于生成式对抗网络的文字图像修复方法,其目的在于克服传统图像修复技术要求待修复部分的形状特定、纹理重复简单的缺点,引入先进的生成式对抗网络概念,实现古文字图像的修复。包括下列步骤:
(1)搜集含有古铭文如甲骨文、金文的图像和随机的遮盖图像,进行尺度归一化生成k×k像素的图像,从而建立一个铭文图像数据库,其中k取正整数;
(2)构建一种生成式对抗网络;
(3)以铭文图像数据库中的图像作为训练样本,对生成式对抗网络进行训练,以优化生成式对抗网络中生成器和鉴别器的参数;
(4)将服从正态分布的随机向量输入到步骤(3)中已训练好的生成器,生成文字图像,将待修复文字图像的完好无损区域与生成图像的相应区域进行对比,不断调整输入向量,直至两者相似,最终将待修复的文字图像中被遮挡或损坏区域的像素值用生成文字图像的对应区域的像素值来替换。
步骤(1)实现过程是:从电子版古籍中扫描截取古文字的图像,不规则的mask遮盖图像数据集使用NVIDIA Irregular Mask Dataset:Testing Set,是图像修复领域应用最广泛的mask数据。二者拼接成待修复的破损文字图像。之后将破损文字图像通过canny边缘检测算法得到其边缘图像,一同组成训练网络的输入图像信息。
结合图2,步骤(2)中构建的生成式对抗网络包括1个生成器G和1个鉴别器D,生成器的输出与鉴别器的输入相连,鉴别器的判别结果再反馈至生成器;生成器部分将所有的普通卷积替换成了门控卷积,采用了粗细两级网络。粗网络由门控卷积和膨胀门控卷积构成,采用了编解码结构进行上采样与下采样,用来修复一个粗略的结果。细网络由两个分支构成,在一个分支中加入了基于上下文的注意力机制。具有上下文的注意力机制的细化网络尤其提高了纹理细节的清晰度,用于实现更加精准的修复。鉴别器部分使用了SN-PatchGAN网络,用于训练自由形式的图像修复网络。
步骤(2)构建的生成式对抗网络的损失函数由对抗损失函数,重构损失函数和感知损失函数3部分构成。
其中GAN网络部分用到的对抗损失函数LGAN,其生成器G为:
鉴别器D为:
其中,x表示真实数据样本,z表示噪声,Pdata(x)和Pz(z)分别表示在数据空间X(即数据集中的原图)中定义的真实数据x概率分布和潜在空间Z上定义的潜在变量z概率分布(即随机噪声分布),D(x)表示将数据x喂入判别器D返回的值,G(x)表示将噪声z喂入生成器G返回的值。
对抗损失引导生成器产生合理的修复结果以欺骗判别器,重构损失则引导生成器产生与真实图像更接近的修复结果。本文采用SmoothL1Loss,结合了L2 Loss和L1 Loss的部分优点,当预测值和ground truth差别较小的时候(绝对值差小于1),梯度不至于太大。(损失函数相较L1 Loss比较圆滑);当差别较大的时候,梯度值又足够小(较稳定,不容易梯度爆炸):
其中yi为第i个样本的真实值ground truth,f(xi)为本模型输出(即第i个样本的预测值),n为样本个数。
风格迁移领域的研究中最常使用的感知损失用于衡量风格一致的文字图像修复效果极为合适,因为文字图像一般相似度很高,不同文字间的区别体现在笔画细节部分,换句话说,文字图像的风格较为一致。感知损失使用一个预训练好的网络(一般为VGG)抽取不同层输出的特征,计算对应层之间的特征损失:
其中φ为损失网络(本发明中采用预训练的VGG16网络),j表示网络的第j层,Cj、Hj、Wj表示第j层feature_map的通道数和宽高。
本发明采用预训练的VGG16网络。提取原图像与修复图像在VGG16网络中各个卷积层输出的特征,构造感知损失。
最后,本算法的完整损失函数由对抗损失,重构损失和感知损失的加权和构成:
L=λ1LGAN+λ2LSmoothL1+λ3Lperceptual;
步骤(3)、(4)具体实现流程是:首先将待处理文字图像I输入粗修复网络,通过边缘检测算法得到的文字笔画边缘图像I-edge以及标识缺失像素位置的掩膜M。由于不规则孔洞的数量、位置、形状等因素都具有很高的随机性,仅仅输入待处理文字图像I,生成器很容易将文字本身内部存在的孔洞、背景噪声部分和实际待修复的部分混淆,所以此处将文字笔画边缘图像I-edge和掩膜M作为辅助的条件信息,输入到网络中;其中待处理文字图像I尺寸为512×512,文字笔画边缘图像I-edge是与待处理文字图像I一一对应的二值图,文字笔画边缘图像I-edge上像素值为1的部分,对应待处理文字图像I中文字字形边缘部分,掩膜M是1张二值单通道掩膜,宽高与待处理文字图像I相同,掩膜M上每个像素的值为0或1,分别对应图像上的完整像素和缺失像素;掩膜M在通道维度被拼接在I和文字笔画边缘图像I-edge的后面,形成4通道的[I,M]和[I-edge,M]后作为粗网络的输入,分别通过编码器-解码器输出的修复结果结合后得到I-rough,将I-rough与M拼接形成[I-rough,M]送入细化网络的生成器,修复后得到图像I-inpaint=
G([I-rough,M])。判别器D的输入是修复图像I-inpaint和对应的真实完整图像I-gt,判别器D对两者分别评分,尝试将它们区分开。
待处理文字图像I又称为带有不规则形状孔洞的文字图像I,比如附图里图3的修复前文字图,图5中input行,指的是带有不规则形状孔洞的文字图像。真实完整图像I-gt即文字图片原有的完整图像。
实施例一:
参见图1,本发明图像修复方法的流程如下:
步骤(1)通过从电子版古籍中扫描截取搜集大量古铭文的图像,用于训练生成式对抗网络。尺度归一化为512×512像素的图像,并以数字依次命名,保存在同一个文件夹中,从而构建一个包含15000张图像的文字图像数据库。
步骤(2)构建生成式对抗网络模型,包括一个生成器G和一个鉴别器D。如图2所示。生成器的输出与鉴别器的输入相连,鉴别器的判别结果再反馈至生成器。
步骤(3)对生成式对抗网络进行训练采用小批量的方法,将人脸图像数据库的图像分为4000个小批量,每个小批量中包含2张图像,每个小批量的训练过程包括以下步骤:
3a)先固定生成器G,优化鉴别器D,使得D的判别准确率最大化;
3b)固定鉴别器D,优化生成器G,使得生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致,从而无法正确判别数据来源;
3c)重复步骤3a和步骤3b,反复交替训练鉴别器和生成器,使得D和G的性能不断提升,当最终D的判别能力提升到一定程度,并且无法正确判别数据来源时,可以认为这个生成器G已经学到了真实数据的分布,从而得到最终的生成式对抗网络参数模型。
图3为修复前的文字数据集部分样例展示,图4经过本发明修复后的图3对应文字图片样例。
结合图5,为了探究本发明在不同破损面积时的修复效果,将测试图片按照破损区域在核心字形部分的占比(而非破损区域在整幅图片的占比)分成了0-15%,15-30%,30-45%,45-60%,60%以上进行5次测试,结果显示,在字形结构基本完整时,本文提出的方法均可以正确修复破损区域,恢复字形使其可辨认。只有当破损面积增大到文字主体结构遭受严重破坏时,本算法的修复效果才会变得不太理想。
表1
结合图6和表1,将发明与目前主流的图像修复方法CA(context attention),MED(mutual encoder-decoder),EC(edge connect),GC(gated convolution)进行了对比。实验结果证明了本文提出的方法能够取得更好的修复结果,在图像修复领域最常用的评价指标SSIM和PSNR上领先于现有修复方法。
本发明公开了一种基于gan网络(Generative Adversarial Network,生成对抗网络)的图像修复改进方法,其实现步骤如下:(1)搜集古文字的图像建立数据集;(2)构建一种生成式对抗网络;(3)对生成式对抗网络进行训练;(4)用训练好的生成器修复受损文字图片。本发明本发明通过引入生成式对抗网络的方法,较好地模拟文字图像的结构特征,提高了文字图片修复结果的准确性与质量,有效地修复破损或被污染的文字图像,为图像修复提供了一种新的方法和途径,在图像修复算法、考古发掘、文物数字化保护等领域有重要的应用价值。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (7)
1.一种基于生成式对抗网络的文字图像修复方法,其特征在于,包括下列步骤:
S1:搜集含有铭文的图像和随机的遮盖图像,进行尺度归一化生成k×k像素的图像,建立铭文图像数据库,其中k取正整数;
S2:构建一种生成式对抗网络;
S3:以铭文图像数据库中的图像作为训练样本,对生成式对抗网络进行训练,优化生成式对抗网络中生成器和鉴别器的参数;
S4:将服从正态分布的随机向量输入到S3中已训练好的生成器,生成文字图像,将待修复文字图像的完好无损区域与生成文字图像的相应区域进行对比,不断调整输入向量,直至两者相似,最终将待修复的文字图像中被遮挡或损坏区域的像素值用生成文字图像的对应区域的像素值来替换。
2.根据权利要求1所述的基于生成式对抗网络的文字图像修复方法,其特征在于,S1具体包括:
从电子版古籍中扫描截取古文字的图像,不规则的mask遮盖图像数据集使用NVIDIAIrregular Mask Dataset:Testing Set;二者拼接成待修复的破损文字图像;之后将破损文字图像通过canny边缘检测算法得到其边缘图像,一同组成训练网络的输入图像信息。
3.根据权利要求1或2所述的基于生成式对抗网络的文字图像修复方法,其特征在于,所述的S2中构建的生成式对抗网络包括1个生成器G和1个鉴别器D,生成器的输出与鉴别器的输入相连,鉴别器的判别结果再反馈至生成器;
生成器部分将所有的普通卷积替换成了门控卷积,采用了粗细两级网络;粗网络由门控卷积和膨胀门控卷积构成,采用了编解码结构进行上采样与下采样,用来修复一个粗略的结果;细网络由两个分支构成,在一个分支中加入了基于上下文的注意力机制;
鉴别器使用了SN-PatchGAN网络,用于训练自由形式的图像修复网络。
4.根据权利要求1或2所述的基于生成式对抗网络的文字图像修复方法,其特征在于,所述的S2中构建的生成式对抗网络的损失函数由对抗损失函数、重构损失函数和感知损失函数构成;
其中GAN网络部分用到的对抗损失函数LGAN,其生成器G为:
鉴别器D为:
其中,x表示真实数据样本,z表示噪声,Pdata(x)和Pz(z)分别表示在数据集中的原图X中定义的真实数据x概率分布和潜在空间Z上定义的潜在变量z概率分布,D(x)表示将数据x喂入判别器D返回的值,G(x)表示将噪声z喂入生成器G返回的值;
重构损失函数为:
其中yi为第i个样本的真实值ground truth;f(xi)为本模型输出,即第i个样本的预测值;n为样本个数;
感知损失函数为:
其中φ为损失网络,j表示网络的第j层,Cj、Hj和Wj分别表示第j层feature_map的通道数、高和宽;
损失函数为:
L=λ1LGAN+λ2LSmoothL1+λ3Lperceptual;
λ1、λ2和λ3分别表示对抗损失函数、重构损失函数和感知损失函数的权重值。
5.根据权利要求4所述的基于生成式对抗网络的文字图像修复方法,其特征在于,所述的损失网络φ采用预训练的VGG16网络,提取原图像与修复图像在VGG16网络中各个卷积层输出的特征,构造感知损失。
6.根据权利要求1或2所述的基于生成式对抗网络的文字图像修复方法,其特征在于,所述的S3和S4具体包括:
将待处理文字图像I输入粗修复网络,通过边缘检测算法得到文字笔画边缘图像I-edge及标识缺失像素位置的掩膜M;
掩膜M在通道维度被拼接在待处理文字图像I和文字笔画边缘图像I-edge的后面,形成4通道的[I,M]和[I-edge,M]后,作为粗网络的输入,分别通过编码器-解码器输出的修复结果结合后得到粗修复图像I-rough,将粗修复图像I-rough与掩膜M拼接形成
[I-rough,M]送入细化网络的生成器,修复后得到修复图像I-inpaint=G([I-rough,M]);
判别器D的输入是修复图像I-inpaint和对应的真实完整图像I-gt,判别器D对修复图像I-inpaint和对应的真实完整图像I-gt分别评分,并区分。
7.根据权利要求6所述的基于生成式对抗网络的文字图像修复方法,其特征在于,所述的待处理文字图像I的尺寸为512×512,文字笔画边缘图像I-edge为与待处理文字图像I一一对应的二值图,文字笔画边缘图像I-edge上像素值为1的部分,对应待处理文字图像I中文字字形边缘部分,掩膜M是二值单通道掩膜,宽高与待处理文字图像I相同,掩膜M上每个像素的值为0或1,分别对应图像上的完整像素和缺失像素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528706.4A CN116630183A (zh) | 2023-05-11 | 2023-05-11 | 一种基于生成式对抗网络的文字图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528706.4A CN116630183A (zh) | 2023-05-11 | 2023-05-11 | 一种基于生成式对抗网络的文字图像修复方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630183A true CN116630183A (zh) | 2023-08-22 |
Family
ID=87612609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310528706.4A Pending CN116630183A (zh) | 2023-05-11 | 2023-05-11 | 一种基于生成式对抗网络的文字图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630183A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315678A (zh) * | 2023-08-24 | 2023-12-29 | 安徽省征信股份有限公司 | 一种数字图像篡改识别方法、系统、设备和存储介质 |
CN117455813A (zh) * | 2023-11-15 | 2024-01-26 | 齐鲁工业大学(山东省科学院) | 基于门控卷积和scpam注意力模块的遮挡手写病历汉字图像修复方法 |
-
2023
- 2023-05-11 CN CN202310528706.4A patent/CN116630183A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315678A (zh) * | 2023-08-24 | 2023-12-29 | 安徽省征信股份有限公司 | 一种数字图像篡改识别方法、系统、设备和存储介质 |
CN117315678B (zh) * | 2023-08-24 | 2024-04-26 | 安徽省征信股份有限公司 | 一种数字图像篡改识别方法、系统、设备和存储介质 |
CN117455813A (zh) * | 2023-11-15 | 2024-01-26 | 齐鲁工业大学(山东省科学院) | 基于门控卷积和scpam注意力模块的遮挡手写病历汉字图像修复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190722B (zh) | 基于满文字符图片的字体风格迁移变换方法 | |
CN111242841B (zh) | 一种基于语义分割和深度学习的图片背景风格迁移方法 | |
CN116630183A (zh) | 一种基于生成式对抗网络的文字图像修复方法 | |
CN108304357B (zh) | 一种基于字体流形的中文字库自动生成方法 | |
CN110490212A (zh) | 钼靶影像处理设备、方法和装置 | |
CN111968193B (zh) | 一种基于StackGAN网络的文本生成图像方法 | |
CN114742714A (zh) | 一种基于骨架提取及对抗学习的汉字图像修复算法 | |
CN110114776A (zh) | 使用全卷积神经网络的字符识别的系统和方法 | |
CN112905828B (zh) | 一种结合显著特征的图像检索器、数据库及检索方法 | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN113642621A (zh) | 基于生成对抗网络的零样本图像分类方法 | |
CN110610174A (zh) | 复杂条件下银行卡号识别方法 | |
CN112489168A (zh) | 一种图像数据集生成制作方法、装置、设备及存储介质 | |
CN113269848A (zh) | 基于注意力机制的遥感图像重构系统 | |
Zhou et al. | MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
CN113554047A (zh) | 图像处理模型的训练方法、图像处理方法及对应的装置 | |
CN116012835A (zh) | 一种基于文本分割的两阶段场景文本擦除方法 | |
Cao et al. | FL-GAN: feature learning generative adversarial network for high-quality face sketch synthesis | |
Zhu et al. | Progressive Feedback-Enhanced Transformer for Image Forgery Localization | |
CN113111906A (zh) | 一种基于单对图像训练的条件生成对抗网络模型的方法 | |
CN111611985A (zh) | 一种基于模型融合的ocr识别方法 | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及系统 | |
Chen et al. | A Novel Dense-Attention Network for Thick Cloud Removal by Reconstructing Semantic Information | |
CN116681604B (zh) | 一种基于条件生成对抗网络的秦简文字修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |