CN116630183A

CN116630183A - 一种基于生成式对抗网络的文字图像修复方法

Info

Publication number: CN116630183A
Application number: CN202310528706.4A
Authority: CN
Inventors: 贺小伟; 刘皓楠; 何雪磊; 朱家欣
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-22

Abstract

本发明公开了一种基于生成式对抗网络的文字图像修复方法，包括下列步骤：S1：搜集含有铭文的图像和随机的遮盖图像，进行尺度归一化生成k×k像素的图像，建立铭文图像数据库，其中k取正整数；S2：构建一种生成式对抗网络；S3：以铭文图像数据库中的图像作为训练样本，对生成式对抗网络进行训练，优化生成式对抗网络中生成器和鉴别器的参数；S4：将待修复的文字图像中被遮挡或损坏区域的像素值用生成文字图像的对应区域的像素值来替换。本发明较好地模拟文字图像的结构特征，提高了文字图片修复结果的准确性与质量，有效地修复破损或被污染的文字图像，为图像修复提供了一种新的方法和途径。

Description

一种基于生成式对抗网络的文字图像修复方法

技术领域

本发明属于文物修复技术领域，具体涉及一种基于生成式对抗网络的文字图像修复方法。

背景技术

图像修复是图像处理中极其重要的部分。图像修复根据图像完好部分的信息，来填补有遮挡、破损或是多余的部分。可用于去除照片的遮挡，修复破损的文物图像，图像数据预处理等领域。

传统的图像修复技术往往需要缺陷部分的形状特定，并且纹理重复简单，这局限了图像修复的应用场景。随着计算机运算能力的提升和算法模型的成熟，深度学习技术在计算机视觉的诸多领域取得了丰硕的成果。蒙特利尔大学的学者Ian Goodfellow于2014年提出“生成式对抗网络”的概念，极大地促进了生成模型的发展，各种演进的模型在近两年应运而生。

生成式对抗网络基本思想源自博弈论，由一个生成器和一个鉴别器构成，通过对抗学习的方式来训练。生成模型捕捉样本数据的分布，判别模型是一个二分类器，判别输入的是真实数据还是生成的样本。通过对大量同类数据的学习，拟合出数据的概率分布，并生成同类型的数据，这与图像修复的目标相契合。

发明内容

本发明针对现有技术的不足提供一种基于生成式对抗网络的文字图像修复方法，其目的在于克服传统图像修复技术要求待修复部分的形状特定、纹理重复简单的缺点，引入先进的生成式对抗网络概念，实现古文字图像的修复。

本发明采用的技术方案是：

一种基于生成式对抗网络的文字图像修复方法，包括下列步骤：

S1：搜集含有铭文的图像和随机的遮盖图像，进行尺度归一化生成k×k像素的图像，建立铭文图像数据库，其中k取正整数；

S2：构建一种生成式对抗网络；

S3：以铭文图像数据库中的图像作为训练样本，对生成式对抗网络进行训练，优化生成式对抗网络中生成器和鉴别器的参数；

S4：将服从正态分布的随机向量输入到S3中已训练好的生成器，生成文字图像，将待修复文字图像的完好无损区域与生成文字图像的相应区域进行对比，不断调整输入向量，直至两者相似，最终将待修复的文字图像中被遮挡或损坏区域的像素值用生成文字图像的对应区域的像素值来替换。

可选的，S1具体包括：

从电子版古籍中扫描截取古文字的图像，不规则的mask遮盖图像数据集使用NVIDIA Irregular Mask Dataset:Testing Set；二者拼接成待修复的破损文字图像；之后将破损文字图像通过canny边缘检测算法得到其边缘图像，一同组成训练网络的输入图像信息。

可选的，所述的S2中构建的生成式对抗网络包括1个生成器G和1个鉴别器D，生成器的输出与鉴别器的输入相连，鉴别器的判别结果再反馈至生成器；

生成器部分将所有的普通卷积替换成了门控卷积，采用了粗细两级网络；粗网络由门控卷积和膨胀门控卷积构成，采用了编解码结构进行上采样与下采样，用来修复一个粗略的结果；细网络由两个分支构成，在一个分支中加入了基于上下文的注意力机制；

鉴别器使用了SN-PatchGAN网络，用于训练自由形式的图像修复网络。

可选的，所述的S2中构建的生成式对抗网络的损失函数由对抗损失函数、重构损失函数和感知损失函数构成；

其中GAN网络部分用到的对抗损失函数L_GAN，其生成器G为：

鉴别器D为：

其中，x表示真实数据样本，z表示噪声，Pdata(x)和Pz(z)分别表示在数据集中的原图X中定义的真实数据x概率分布和潜在空间Z上定义的潜在变量z概率分布，D(x)表示将数据x喂入判别器D返回的值，G(x)表示将噪声z喂入生成器G返回的值；

重构损失函数为：

其中y_i为第i个样本的真实值ground truth；f(x_i)为本模型输出，即第i个样本的预测值；n为样本个数；

感知损失函数为：

其中φ为损失网络，j表示网络的第j层，C_j、H_j和W_j分别表示第j层feature_map的通道数、高和宽；

损失函数为：

L＝λ₁L_GAN+λ₂L_SmoothL1+λ₃L_perceptual；

λ₁、λ₂和λ₃分别表示对抗损失函数、重构损失函数和感知损失函数的权重值。

可选的，所述的损失网络φ采用预训练的VGG16网络，提取原图像与修复图像在VGG16网络中各个卷积层输出的特征，构造感知损失。

可选的，所述的S3和S4具体包括：

将待处理文字图像I输入粗修复网络，通过边缘检测算法得到文字笔画边缘图像I-edge及标识缺失像素位置的掩膜M；

掩膜M在通道维度被拼接在待处理文字图像I和文字笔画边缘图像I-edge的后面，形成4通道的[I,M]和[I-edge,M]后，作为粗网络的输入，分别通过编码器-解码器输出的修复结果结合后得到粗修复图像I-rough，将粗修复图像I-rough与掩膜M拼接形成[I-rough,M]送入细化网络的生成器，修复后得到修复图像I-inpaint＝G([I-rough,M])；

判别器D的输入是修复图像I-inpaint和对应的真实完整图像I-gt，判别器D对修复图像I-inpaint和对应的真实完整图像I-gt分别评分，并区分。

可选的，所述的待处理文字图像I的尺寸为512×512，文字笔画边缘图像I-edge为与待处理文字图像I一一对应的二值图，文字笔画边缘图像I-edge上像素值为1的部分，对应待处理文字图像I中文字字形边缘部分，掩膜M是二值单通道掩膜，宽高与待处理文字图像I相同，掩膜M上每个像素的值为0或1，分别对应图像上的完整像素和缺失像素。

本发明的优点为：

本发明本发明通过引入生成式对抗网络的方法，较好地模拟文字图像的结构特征，提高了文字图片修复结果的准确性与质量，有效地修复破损或被污染的文字图像，为图像修复提供了一种新的方法和途径，在图像修复算法、考古发掘、文物数字化保护等领域有重要的应用价值。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本发明的基于生成式对抗网络的文字图像修复方法的流程图；

图2为本发明的生成器和鉴别器的结构图；

图3为应用例中修复前的文字图；

图4为应用例中修复后的文字图；

图5为本发明在文字不同破损程度时的修复效果；

图6为本发明与其他主流自然图像修复算法的修复效果对比。

具体实施方式

采用全新的铭文数据集代替标准自然图像数据集进行网络训练，构建一种粗-细两段式生成式对抗网络，加入图像边缘信息作为先验，提高修复质量，加入PerceptualLoss(感知损失)，增强输出特征的细节信息。

本发明的基于生成式对抗网络的文字图像修复方法，其目的在于克服传统图像修复技术要求待修复部分的形状特定、纹理重复简单的缺点，引入先进的生成式对抗网络概念，实现古文字图像的修复。包括下列步骤：

(1)搜集含有古铭文如甲骨文、金文的图像和随机的遮盖图像，进行尺度归一化生成k×k像素的图像，从而建立一个铭文图像数据库，其中k取正整数；

(2)构建一种生成式对抗网络；

(3)以铭文图像数据库中的图像作为训练样本，对生成式对抗网络进行训练，以优化生成式对抗网络中生成器和鉴别器的参数；

(4)将服从正态分布的随机向量输入到步骤(3)中已训练好的生成器，生成文字图像，将待修复文字图像的完好无损区域与生成图像的相应区域进行对比，不断调整输入向量，直至两者相似，最终将待修复的文字图像中被遮挡或损坏区域的像素值用生成文字图像的对应区域的像素值来替换。

步骤(1)实现过程是：从电子版古籍中扫描截取古文字的图像，不规则的mask遮盖图像数据集使用NVIDIA Irregular Mask Dataset:Testing Set，是图像修复领域应用最广泛的mask数据。二者拼接成待修复的破损文字图像。之后将破损文字图像通过canny边缘检测算法得到其边缘图像，一同组成训练网络的输入图像信息。

结合图2，步骤(2)中构建的生成式对抗网络包括1个生成器G和1个鉴别器D，生成器的输出与鉴别器的输入相连，鉴别器的判别结果再反馈至生成器；生成器部分将所有的普通卷积替换成了门控卷积，采用了粗细两级网络。粗网络由门控卷积和膨胀门控卷积构成，采用了编解码结构进行上采样与下采样，用来修复一个粗略的结果。细网络由两个分支构成，在一个分支中加入了基于上下文的注意力机制。具有上下文的注意力机制的细化网络尤其提高了纹理细节的清晰度，用于实现更加精准的修复。鉴别器部分使用了SN-PatchGAN网络，用于训练自由形式的图像修复网络。

步骤(2)构建的生成式对抗网络的损失函数由对抗损失函数，重构损失函数和感知损失函数3部分构成。

其中GAN网络部分用到的对抗损失函数L_GAN，其生成器G为：

鉴别器D为：

其中,x表示真实数据样本，z表示噪声，Pdata(x)和Pz(z)分别表示在数据空间X(即数据集中的原图)中定义的真实数据x概率分布和潜在空间Z上定义的潜在变量z概率分布(即随机噪声分布)，D(x)表示将数据x喂入判别器D返回的值，G(x)表示将噪声z喂入生成器G返回的值。

对抗损失引导生成器产生合理的修复结果以欺骗判别器，重构损失则引导生成器产生与真实图像更接近的修复结果。本文采用SmoothL1Loss，结合了L2 Loss和L1 Loss的部分优点，当预测值和ground truth差别较小的时候(绝对值差小于1)，梯度不至于太大。(损失函数相较L1 Loss比较圆滑)；当差别较大的时候，梯度值又足够小(较稳定，不容易梯度爆炸)：

其中y_i为第i个样本的真实值ground truth，f(x_i)为本模型输出(即第i个样本的预测值)，n为样本个数。

风格迁移领域的研究中最常使用的感知损失用于衡量风格一致的文字图像修复效果极为合适,因为文字图像一般相似度很高，不同文字间的区别体现在笔画细节部分，换句话说，文字图像的风格较为一致。感知损失使用一个预训练好的网络(一般为VGG)抽取不同层输出的特征，计算对应层之间的特征损失：

其中φ为损失网络(本发明中采用预训练的VGG16网络)，j表示网络的第j层，Cj、Hj、Wj表示第j层feature_map的通道数和宽高。

本发明采用预训练的VGG16网络。提取原图像与修复图像在VGG16网络中各个卷积层输出的特征，构造感知损失。

最后，本算法的完整损失函数由对抗损失，重构损失和感知损失的加权和构成：

L＝λ₁L_GAN+λ₂L_SmoothL1+λ₃L_perceptual；

步骤(3)、(4)具体实现流程是：首先将待处理文字图像I输入粗修复网络，通过边缘检测算法得到的文字笔画边缘图像I-edge以及标识缺失像素位置的掩膜M。由于不规则孔洞的数量、位置、形状等因素都具有很高的随机性，仅仅输入待处理文字图像I，生成器很容易将文字本身内部存在的孔洞、背景噪声部分和实际待修复的部分混淆，所以此处将文字笔画边缘图像I-edge和掩膜M作为辅助的条件信息，输入到网络中；其中待处理文字图像I尺寸为512×512，文字笔画边缘图像I-edge是与待处理文字图像I一一对应的二值图，文字笔画边缘图像I-edge上像素值为1的部分，对应待处理文字图像I中文字字形边缘部分，掩膜M是1张二值单通道掩膜，宽高与待处理文字图像I相同，掩膜M上每个像素的值为0或1，分别对应图像上的完整像素和缺失像素；掩膜M在通道维度被拼接在I和文字笔画边缘图像I-edge的后面，形成4通道的[I,M]和[I-edge,M]后作为粗网络的输入，分别通过编码器-解码器输出的修复结果结合后得到I-rough，将I-rough与M拼接形成[I-rough,M]送入细化网络的生成器，修复后得到图像I-inpaint＝

G([I-rough,M])。判别器D的输入是修复图像I-inpaint和对应的真实完整图像I-gt，判别器D对两者分别评分，尝试将它们区分开。

待处理文字图像I又称为带有不规则形状孔洞的文字图像I，比如附图里图3的修复前文字图，图5中input行，指的是带有不规则形状孔洞的文字图像。真实完整图像I-gt即文字图片原有的完整图像。

实施例一：

参见图1，本发明图像修复方法的流程如下：

步骤(1)通过从电子版古籍中扫描截取搜集大量古铭文的图像，用于训练生成式对抗网络。尺度归一化为512×512像素的图像，并以数字依次命名，保存在同一个文件夹中，从而构建一个包含15000张图像的文字图像数据库。

步骤(2)构建生成式对抗网络模型，包括一个生成器G和一个鉴别器D。如图2所示。生成器的输出与鉴别器的输入相连，鉴别器的判别结果再反馈至生成器。

步骤(3)对生成式对抗网络进行训练采用小批量的方法，将人脸图像数据库的图像分为4000个小批量，每个小批量中包含2张图像，每个小批量的训练过程包括以下步骤：

3a)先固定生成器G，优化鉴别器D，使得D的判别准确率最大化；

3b)固定鉴别器D，优化生成器G，使得生成的伪数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)一致，从而无法正确判别数据来源；

3c)重复步骤3a和步骤3b，反复交替训练鉴别器和生成器，使得D和G的性能不断提升，当最终D的判别能力提升到一定程度，并且无法正确判别数据来源时，可以认为这个生成器G已经学到了真实数据的分布，从而得到最终的生成式对抗网络参数模型。

图3为修复前的文字数据集部分样例展示，图4经过本发明修复后的图3对应文字图片样例。

结合图5，为了探究本发明在不同破损面积时的修复效果，将测试图片按照破损区域在核心字形部分的占比(而非破损区域在整幅图片的占比)分成了0-15％，15-30％，30-45％，45-60％，60％以上进行5次测试，结果显示，在字形结构基本完整时，本文提出的方法均可以正确修复破损区域，恢复字形使其可辨认。只有当破损面积增大到文字主体结构遭受严重破坏时，本算法的修复效果才会变得不太理想。

表1

结合图6和表1，将发明与目前主流的图像修复方法CA(context attention)，MED(mutual encoder-decoder)，EC(edge connect)，GC(gated convolution)进行了对比。实验结果证明了本文提出的方法能够取得更好的修复结果，在图像修复领域最常用的评价指标SSIM和PSNR上领先于现有修复方法。

本发明公开了一种基于gan网络(Generative Adversarial Network，生成对抗网络)的图像修复改进方法，其实现步骤如下：(1)搜集古文字的图像建立数据集；(2)构建一种生成式对抗网络；(3)对生成式对抗网络进行训练；(4)用训练好的生成器修复受损文字图片。本发明本发明通过引入生成式对抗网络的方法，较好地模拟文字图像的结构特征，提高了文字图片修复结果的准确性与质量，有效地修复破损或被污染的文字图像，为图像修复提供了一种新的方法和途径，在图像修复算法、考古发掘、文物数字化保护等领域有重要的应用价值。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种基于生成式对抗网络的文字图像修复方法，其特征在于，包括下列步骤：

S2：构建一种生成式对抗网络；

2.根据权利要求1所述的基于生成式对抗网络的文字图像修复方法，其特征在于，S1具体包括：

从电子版古籍中扫描截取古文字的图像，不规则的mask遮盖图像数据集使用NVIDIAIrregular Mask Dataset:Testing Set；二者拼接成待修复的破损文字图像；之后将破损文字图像通过canny边缘检测算法得到其边缘图像，一同组成训练网络的输入图像信息。

3.根据权利要求1或2所述的基于生成式对抗网络的文字图像修复方法，其特征在于，所述的S2中构建的生成式对抗网络包括1个生成器G和1个鉴别器D，生成器的输出与鉴别器的输入相连，鉴别器的判别结果再反馈至生成器；

4.根据权利要求1或2所述的基于生成式对抗网络的文字图像修复方法，其特征在于，所述的S2中构建的生成式对抗网络的损失函数由对抗损失函数、重构损失函数和感知损失函数构成；

其中GAN网络部分用到的对抗损失函数L_GAN，其生成器G为：

鉴别器D为：

重构损失函数为：

感知损失函数为：

损失函数为：

L＝λ₁L_GAN+λ₂L_SmoothL1+λ₃L_perceptual；

5.根据权利要求4所述的基于生成式对抗网络的文字图像修复方法，其特征在于，所述的损失网络φ采用预训练的VGG16网络，提取原图像与修复图像在VGG16网络中各个卷积层输出的特征，构造感知损失。

6.根据权利要求1或2所述的基于生成式对抗网络的文字图像修复方法，其特征在于，所述的S3和S4具体包括：

掩膜M在通道维度被拼接在待处理文字图像I和文字笔画边缘图像I-edge的后面，形成4通道的[I,M]和[I-edge,M]后，作为粗网络的输入，分别通过编码器-解码器输出的修复结果结合后得到粗修复图像I-rough，将粗修复图像I-rough与掩膜M拼接形成

[I-rough,M]送入细化网络的生成器，修复后得到修复图像I-inpaint＝G([I-rough,M])；

7.根据权利要求6所述的基于生成式对抗网络的文字图像修复方法，其特征在于，所述的待处理文字图像I的尺寸为512×512，文字笔画边缘图像I-edge为与待处理文字图像I一一对应的二值图，文字笔画边缘图像I-edge上像素值为1的部分，对应待处理文字图像I中文字字形边缘部分，掩膜M是二值单通道掩膜，宽高与待处理文字图像I相同，掩膜M上每个像素的值为0或1，分别对应图像上的完整像素和缺失像素。