CN115457568A

CN115457568A - 一种基于生成对抗网络的历史文档图像降噪方法及系统

Info

Publication number: CN115457568A
Application number: CN202211141204.8A
Authority: CN
Inventors: 徐昊; 岳明哲; 刁晓蕾; 史大千; 石立达
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-09
Anticipated expiration: 2042-09-20
Also published as: CN115457568B

Abstract

本申请公开了一种基于生成对抗网络的历史文档图像降噪方法及系统，获取历史文档图像，构建文字骨骼提取网络训练集和生成对抗网络训练集；基于文字骨骼提取网络训练集，构建文字骨骼提取网络，获得文字骨骼图像；基于生成对抗网络训练集和文字骨骼图像，构建生成对抗网络，获得图像降噪模型；训练图像降噪模型，基于训练好的图像降噪模型，获得历史文档噪声图像的降噪结果。解决了历史文档图像中对于复杂噪声的处理问题，使图像降噪质量得到显著提高，具有很强的利用价值。

Description

一种基于生成对抗网络的历史文档图像降噪方法及系统

技术领域

本申请属于计算机视觉以及深度学习技术领域，具体涉及一种基于生成对抗网络的历史文档图像降噪方法及系统。

背景技术

历史文档是古文字的重要载体，也是对于古代社会、人文等方面研究所必不可少的重要资料。由于年代久远及保存不当，一些历史文档退化、破损、墨迹和腐蚀等现象严重，导致历史文档图像往往具有大量的复杂噪声。这些不同程度的复杂噪声严重干扰了历史文档的可视性和可读性，为后续的古文字检测与识别等视觉任务带来了极大的阻碍。

早期的研究人员提出了大量的降噪算法来去除图像中的噪声，主要包括滤波器、空间像素特征去噪和变域去噪，但这些方法主要是为去除简单合成噪声而设计的，在实践中表现效果不佳。近年来深度学习快速发展，基于深度学习的图像降噪模型的性能得到了显著的提高。基于降噪卷积神经网络(DnCNNs)的方法，从函数回归角度用卷积神经网络将噪声从噪声图像中分离出来，取得了较好的降噪效果。相比于传统的图像降噪方法，基于生成对抗网络(Generative Adversarial Network,GAN)的图像降噪模型能够得到更为合理且语义更为符合的像素。一些基于GAN的方法试图从无噪声和噪声图像对中学习并建立图像降噪模型，给图像降噪提供了新的研究思路。研究人员提出了一系列基于GAN的图像降噪模型，例如基于对抗性学习的对抗性自动编码器、基于注意力机制的生成对抗网络和基于胶囊网络的对抗性学习网络，都取得了较好的效果。

但目前已知的图像降噪方法并不能很好的对历史文档图像进行有效地处理，主要存在的问题如下：

(1)与高斯白、椒盐噪声等简单的合成噪声不同，历史文档图像往往含有大量的复杂噪声，不仅干扰文字特征的识别，还容易增加模型过拟合风险。用概率密度函数对复杂噪声进行建模更为困难，这使得历史文档图像降噪更具有挑战性。

(2)目前的图像降噪方法主要集中在去除简单噪声上，并且用户需要提前知道噪声的类别和等级，这在实践中很难满足，所以导致其在历史文档图像中取得的效果不佳。

发明内容

本申请提出了一种基于生成对抗网络的历史文档图像降噪方法及系统，解决了历史文档图像中复杂噪声的处理问题。

为实现上述目的，本申请提供了如下方案：

一种基于生成对抗网络的历史文档图像降噪方法：

基于历史文档图像，构建文字骨骼提取网络训练集和生成对抗网络训练集；

基于所述文字骨骼提取网络训练集，构建文字骨骼提取网络，获得文字骨骼图像；

基于所述生成对抗网络训练集和所述文字骨骼图像，构建所述生成对抗网络，获得图像降噪模型；

对所述图像降噪模型进行训练，基于训练好的所述图像降噪模型，获得历史文档噪声图像的降噪结果。

优选的，构建文字骨骼提取网络训练集和生成对抗网络训练集的方法包括：

对所述历史文档图像进行二值化处理，标注出文字的单像素骨骼，从而获得训练集文字骨骼图像；

基于噪声图像和与所述噪声图像对应的所述训练集文字骨骼图像，构建文字骨骼提取网络训练集；

基于无噪声图像和与所述无噪声图像对应的噪声图像，构建所述生成对抗网络训练集。

优选的，所述文字骨骼提取网络包括：

所述文字骨骼提取网络以第一U-Net模型为基础结构，由卷积神经网络构成；

所述第一U-Net模型包括10个卷积层，其中有5个下采样层和5个上采样层；

所述下采样层和所述上采样层的卷积核大小均为4*4，步长为2，padding为1；

连接所述卷积层输出的是归一化层Instance Normalization和激活函数LeakyReLU。

优选的，所述生成对抗网络包括：

所述生成对抗网络包括生成器、辨别器和损失函数；

基于所述文字骨骼图像和与所述文字骨骼图像对应的噪声图像，构建所述生成器，所述生成器用于输出无噪声文字图像；

所述辨别器，用于区分生成器输出的所述无噪声文字图像和原始无噪声文字图像；

所述损失函数，用于增强所述图像降噪模型对文字骨骼信息的学习并保持降噪结果的一致。

优选的，所述生成器包括：

生成器以第二U-Net模型作为基础结构，由第一MFR块构成；

所述第二U-Net模型包括4个下采样层和4个上采样层；

每一个所述第一MFR块都包括四个子层，分别为多尺度集成层、连接层、卷积层和通道注意力机制层；

所述第一MFR块，用于处理不同尺度的复杂图像退化，重建所述无噪声文字图像；

所述多尺度集成层，用于引入不同尺度的感受野；

所述连接层，用于将所述不同尺度的感受野提取出的特征连接在一起，并输出给所述卷积层；

所述通道注意力机制层，用于捕获所述卷积层中每个特征通道的重要程度。

优选的，所述辨别器包括：

所述辨别器包括五个第二MFR块和一个全连接层；

所述第二MFR块的卷积核大小为3*3，步长为1；

所述全连接层，用于对图像进行二分类，使所述辨别器区分所述生成器输出的所述无噪声文字图像和所述原始无噪声文字图像。

优选的，所述损失函数包括骨骼损失函数、Charbonnier损失函数、逐像素图像重建损失和GAN损失函数；

所述骨骼损失函数为：

其中，θ_SK是损失函数的权重系数；H、W是骨骼图像的高度和宽度；SK(x)是骨骼提取网络从文字噪声图像x中提取的骨骼图像；

是文字骨骼图像；||·||₁是L1范数；

所述Charbonnier损失函数为：

其中，y是原始无噪声文字图像；

是生成的文字图像；θ_Ch为损失函数的权重系数；H、W和C是输入图像的高度、宽度和通道数；ε＝1×10^-3为常量，为了使数值稳定；

所述逐像素图像重建损失L_rec和GAN损失函数

的为：

以上的θ_rec，θ_GAN为相应损失函数的权重；D(·)是辨别器网络的输出结果；

生成器L_G的整体损失函数的为：

辨别器L_D的整体损失函数是GAN的损失，如下所示：

优选的，所述文字骨骼提取网络和所述生成对抗网络，均采用了跳跃连接，使得所述上采样层的计算能够利用到所述下采样层对应层和底层的原始信息；

所述生成对抗网络采用Adam作为优化器，所述生成器与所述辨别器达到纳什均衡时，所述生成对抗网络训练结束，所述生成器输出所述历史文档噪声图像的降噪结果。

一种基于生成对抗网络的历史文档图像降噪系统：

包括训练集构建模块、文字骨骼提取网络构建模块、生成对抗网络构建模块、降噪结果获得模块；

所述训练集构建模块，用于构建文字骨骼提取网络训练集和生成对抗网络训练集；

所述文字骨骼提取网络构建模块，用于基于所述文字骨骼提取网络训练集，构建文字骨骼提取网络，获得文字骨骼图像；

所述生成对抗网络构建模块，用于基于所述生成对抗网络训练集和所述文字骨骼图像，构建所述生成对抗网络，获得图像降噪模型；

所述降噪结果获得模块，用于对所述图像降噪模型进行训练，基于训练好的所述图像降噪模型，获得历史文档噪声图像的降噪结果。

本申请的有益效果为：由上述技术方案可知，本申请提出了一个新的模型结构，将文字骨骼信息首次应用于历史文档图像降噪中，还通过多尺度融合策略构建了一个基于生成对抗网络的图像降噪系统，解决了历史文档图像中对于复杂噪声的处理问题，使图像降噪质量得到显著提高，具有很强的利用价值。本申请具有广阔的推广空间和使用价值。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的方法流程图；

图2为实施例一中生成对抗网络的生成器网络结构图；

图3为实施例一中多尺度特征融合残差块结构图；

图4为实施例一中生成对抗网络的辨别器网络结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一：一种基于生成对抗网络的历史文档图像降噪方法；

如图1所示，一种基于生成对抗网络的历史文档图像降噪方法，具体的实现步骤如下：

S1、构建数据集：

首先获取历史文档图像，对其进行二值化处理，标注出文字的单像素骨骼，从而获得训练集文字骨骼图像。然后，将无噪声图像和与其对应的噪声图像作为生成对抗网络的训练样本，将噪声图像和与其对应的训练集文字骨骼图像作为文字骨骼提取网络的训练样本，以此来构建训练集。无噪声图像即为干净图像。

S2、构建文字骨骼提取网络：

文字骨骼提取网络以U型结构为基础，由卷积神经网络构成，用于从输入的噪声图像中提取出文字骨骼图像。

进一步地，文字骨骼提取网络以第一U-Net模型作为基础结构，主要包括10个卷积层，其中有5个下采样层和5个上采样层。下采样层和上采样层的卷积核大小均为4*4，步长为2，padding为1，连接卷积层输出的是归一化层Instance Normalization和激活函数LeakyReLU。网络采用跳跃连接使得上采样层的计算能够利用到下采样层对应层和低层的原始信息。这样的跳跃连接传递的特征信息将不会只来自于单一的特征图，实现了让低层特征感知高层特征的语义信息，并以逐层融合叠加的方式维持并强化语义的传递。

S3、构建生成对抗网络：

生成对抗网络包括生成器和辨别器两部分。将提取的文字骨骼图像和与其对应的噪声图像作为生成器的输入，目的是输出无噪声文字图像。辨别器用于区分生成器产生的无噪声文字图像和原始无噪声文字图像。无噪声文字图像即为干净的文字图像。

进一步地，本发明中的生成器网络以U型结构为基础，主要由基于空洞卷积的多尺度特征融合残差块(MFR)组成，并且使用跳跃连接来防止模糊输出。每个第一MFR块由四部分构成，包括多尺度集成层、连接层、卷积层和通道注意力机制层。第一MFR用来处理不同尺度的复杂图像退化，在对抗训练中逐渐学会重建无噪声文字图像，并且输出图像应该保持文字的结构一致性。构建尺度集成层的目的是引入不同尺度的感受野来增强特征提取并提高模型的性能。针对图像复杂退化的短距离和长距离依赖，连接层将不同尺度的感受野提取出的特征连接在一起，并输出给卷积层。为捕获卷积层中每个特征通道的重要程度，然后依照重要程度去提升有用的特征并抑制对当前任务用处不大的特征，故卷积层后连接有一层基于通道注意力机制的SENet，最后应用残差连接作为MFR的最终输出结果。

多尺度集成层中采用空洞卷积来提取不同尺度的特征。在这个实现方法中主要考虑两个要求：①建立一个大的感受野需要通过大内核捕获长距离依赖；②增大卷积层的核大小时增加的计算成本。为了满足这两个要求，MFR在尺度集成层中并行堆叠了三个具有不同扩张率的空洞卷积层。假设F是输入特征图，则：

F^d＝DilatedConv(F,λ)

其中，F^d是空洞卷积层处理后的特征图，DilatedConv(·)是空洞卷积层的处理过程，且扩张率λ＝{1,2,3}。

辨别器网络由五个第二MFR块和一个全连接层构成，负责区分生成图像和真实图像。将第二MFR引入辨别器网络，是为了同时学习不同尺度下的图像特征，从而检查不同尺度下图像内容的不一致性。

构建生成对抗网络的具体步骤为：

(1)构建生成器网络：

生成器以第二U-Net模型作为基础结构，包括4个下采样层和4个上采样层，如图2所示。将噪声图像与提取的文字骨骼图像作为生成器输入，生成器由第一MFR块组成。每个第一MFR包括四个子层，分别为多尺度集成层、连接层、卷积层和通道注意力机制层，如图3所示。

本实施例中的多尺度集成层由空洞卷积实现。上采样层和下采样层均并行堆叠三个卷积核大小为4*4，步长为2，填充为padding＝{1,2,3}，扩张率为λ＝{1,2,3}的多尺度集成层。提取出不同尺度的特征图后，将三组特征图通过连接层拼接在一起，连接层后依次是归一化BatchNorm和激活函数ReLU的处理。经过多尺度集成层和连接层的处理后，将处理结果作为卷积层的输入，其中卷积层的卷积核大小为4*4，步长为2，padding为1。连接卷积层的是基于通道注意力机制的SENet，包括压缩和激励两部分。压缩部分采用global averagepooling实现，将每个通道压缩为1维，相当于获得了每个通道的全局视野，感受区域更广。激励部分采用两层全连接层，连接的激活函数分别为ReLU和Sigmoid，为其输出的权重是经过特征选择后的每个特征通道的重要程度，然后通过乘法加权到特征图的每个通道中，提升有用特征并抑制对结果作用不大的特征。最后，应用残差连接作为本层生成单元的最终输出结果，并作为下一个生成单元的输入。上采样层的卷积层后还连接有归一化InstanceNorm和激活函数ReLU的处理。最后一个上采样层的结构有所不同，首先是一个扩张率为2的上采样，然后对边界进行零填充，连接零填充输出的是卷积层，其中卷积核大小为4*4，步长为1，padding为1，连接卷积层输出的是激活函数Tanh。

构建的生成对抗网络采用跳跃连接使得上采样层的计算能够利用到下采样层对应层和低层的原始信息，从而防止模糊输出。为了防止过拟合，模型中还采用了Dropout。

(2)构建辨别器网络：

辨别器网络依次由五个第二MFR块和一个全连接层组成，如图4所示。辨别器的第二MFR块的卷积核大小为3*3，步长为1，其余结构与生成器类似。将生成器产生的图像与原始无噪声图像作为辨别器的输入，依次经过5个第二MFR的处理后，最终由全连接层对图像做二分类，使辨别网络能够区分生成图像与真实图像。

(3)构建生成对抗网络的损失函数：

为细化损失类型，以指导模型的训练向正确的方向进行。本发明提出了一种新颖的基于像素的损失函数L_SK，即骨骼损失，用于增强模型对骨骼信息的学习并保持降噪结果的一致性。骨骼损失函数可以定义为：

是文字骨骼图像；||·||₁是L1范数。

本发明还考虑应用具有鲁棒性的Charbonnier损失函数，可以更好地处理异常值，优化深层网络和提高重建的准确性。Charbonnier损失函数可以定义为：

其中，y是原始无噪声文字图像；

是生成的文字图像；θ_Ch为损失函数的权重系数；H、W和C是输入图像的高度、宽度和通道数；ε＝1×10^-3为常量，为了使数值稳定。

同时，我们还将常见的逐像素图像重建损失L_rec和GAN损失函数

应用于生成器中，如下所示：

以上的θ_rec，θ_GAN为相应损失函数的权重；D(·)是辨别器网络的输出结果。因此，生成器L_G的整体损失函数的定义如下所示：

判别器的整体损失函数是GAN的损失，如下所示：

生成对抗网络均采用Adam作为优化器，训练过程是让生成器与辨别器相互竞争，两者在交替训练的过程中能力不断提升，最终生成器通过学习真实数据的本质特征，生成与真实数据相似的新数据。辨别器用于指导生成器如何调整以得到更为接近真实数据的生成数据，防止反复训练过程呈现的发散状态。在生成器与辨别器达到纳什均衡时就意味着生成对抗网络训练结束。此时，生成器产生的图像就是最终历史文档图像的降噪结果。

S4、通过训练好的生成对抗网络得到噪声图像的降噪结果。

实施例二：一种基于生成对抗网络的历史文档图像降噪系统

一种基于生成对抗网络的历史文档图像降噪系统，包括训练集构建模块、文字骨骼提取网络构建模块、生成对抗网络构建模块、降噪结果获得模块；

训练集构建模块，用于构建文字骨骼提取网络训练集和生成对抗网络训练集；

文字骨骼提取网络构建模块，用于基于文字骨骼提取网络训练集，构建文字骨骼提取网络，获得文字骨骼图像；

生成对抗网络构建模块，用于基于生成对抗网络训练集和文字骨骼图像，构建生成对抗网络，获得图像降噪模型；

降噪结果获得模块，用于对图像降噪模型进行训练，基于训练好的图像降噪模型，获得历史文档噪声图像的降噪结果。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。