CN115457568A - 一种基于生成对抗网络的历史文档图像降噪方法及系统 - Google Patents

一种基于生成对抗网络的历史文档图像降噪方法及系统 Download PDF

Info

Publication number
CN115457568A
CN115457568A CN202211141204.8A CN202211141204A CN115457568A CN 115457568 A CN115457568 A CN 115457568A CN 202211141204 A CN202211141204 A CN 202211141204A CN 115457568 A CN115457568 A CN 115457568A
Authority
CN
China
Prior art keywords
image
noise
noise reduction
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211141204.8A
Other languages
English (en)
Other versions
CN115457568B (zh
Inventor
徐昊
岳明哲
刁晓蕾
史大千
石立达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202211141204.8A priority Critical patent/CN115457568B/zh
Publication of CN115457568A publication Critical patent/CN115457568A/zh
Application granted granted Critical
Publication of CN115457568B publication Critical patent/CN115457568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19153Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于生成对抗网络的历史文档图像降噪方法及系统,获取历史文档图像,构建文字骨骼提取网络训练集和生成对抗网络训练集;基于文字骨骼提取网络训练集,构建文字骨骼提取网络,获得文字骨骼图像;基于生成对抗网络训练集和文字骨骼图像,构建生成对抗网络,获得图像降噪模型;训练图像降噪模型,基于训练好的图像降噪模型,获得历史文档噪声图像的降噪结果。解决了历史文档图像中对于复杂噪声的处理问题,使图像降噪质量得到显著提高,具有很强的利用价值。

Description

一种基于生成对抗网络的历史文档图像降噪方法及系统
技术领域
本申请属于计算机视觉以及深度学习技术领域,具体涉及一种基于生成对抗网络的历史文档图像降噪方法及系统。
背景技术
历史文档是古文字的重要载体,也是对于古代社会、人文等方面研究所必不可少的重要资料。由于年代久远及保存不当,一些历史文档退化、破损、墨迹和腐蚀等现象严重,导致历史文档图像往往具有大量的复杂噪声。这些不同程度的复杂噪声严重干扰了历史文档的可视性和可读性,为后续的古文字检测与识别等视觉任务带来了极大的阻碍。
早期的研究人员提出了大量的降噪算法来去除图像中的噪声,主要包括滤波器、空间像素特征去噪和变域去噪,但这些方法主要是为去除简单合成噪声而设计的,在实践中表现效果不佳。近年来深度学习快速发展,基于深度学习的图像降噪模型的性能得到了显著的提高。基于降噪卷积神经网络(DnCNNs)的方法,从函数回归角度用卷积神经网络将噪声从噪声图像中分离出来,取得了较好的降噪效果。相比于传统的图像降噪方法,基于生成对抗网络(Generative Adversarial Network,GAN)的图像降噪模型能够得到更为合理且语义更为符合的像素。一些基于GAN的方法试图从无噪声和噪声图像对中学习并建立图像降噪模型,给图像降噪提供了新的研究思路。研究人员提出了一系列基于GAN的图像降噪模型,例如基于对抗性学习的对抗性自动编码器、基于注意力机制的生成对抗网络和基于胶囊网络的对抗性学习网络,都取得了较好的效果。
但目前已知的图像降噪方法并不能很好的对历史文档图像进行有效地处理,主要存在的问题如下:
(1)与高斯白、椒盐噪声等简单的合成噪声不同,历史文档图像往往含有大量的复杂噪声,不仅干扰文字特征的识别,还容易增加模型过拟合风险。用概率密度函数对复杂噪声进行建模更为困难,这使得历史文档图像降噪更具有挑战性。
(2)目前的图像降噪方法主要集中在去除简单噪声上,并且用户需要提前知道噪声的类别和等级,这在实践中很难满足,所以导致其在历史文档图像中取得的效果不佳。
发明内容
本申请提出了一种基于生成对抗网络的历史文档图像降噪方法及系统,解决了历史文档图像中复杂噪声的处理问题。
为实现上述目的,本申请提供了如下方案:
一种基于生成对抗网络的历史文档图像降噪方法:
基于历史文档图像,构建文字骨骼提取网络训练集和生成对抗网络训练集;
基于所述文字骨骼提取网络训练集,构建文字骨骼提取网络,获得文字骨骼图像;
基于所述生成对抗网络训练集和所述文字骨骼图像,构建所述生成对抗网络,获得图像降噪模型;
对所述图像降噪模型进行训练,基于训练好的所述图像降噪模型,获得历史文档噪声图像的降噪结果。
优选的,构建文字骨骼提取网络训练集和生成对抗网络训练集的方法包括:
对所述历史文档图像进行二值化处理,标注出文字的单像素骨骼,从而获得训练集文字骨骼图像;
基于噪声图像和与所述噪声图像对应的所述训练集文字骨骼图像,构建文字骨骼提取网络训练集;
基于无噪声图像和与所述无噪声图像对应的噪声图像,构建所述生成对抗网络训练集。
优选的,所述文字骨骼提取网络包括:
所述文字骨骼提取网络以第一U-Net模型为基础结构,由卷积神经网络构成;
所述第一U-Net模型包括10个卷积层,其中有5个下采样层和5个上采样层;
所述下采样层和所述上采样层的卷积核大小均为4*4,步长为2,padding为1;
连接所述卷积层输出的是归一化层Instance Normalization和激活函数LeakyReLU。
优选的,所述生成对抗网络包括:
所述生成对抗网络包括生成器、辨别器和损失函数;
基于所述文字骨骼图像和与所述文字骨骼图像对应的噪声图像,构建所述生成器,所述生成器用于输出无噪声文字图像;
所述辨别器,用于区分生成器输出的所述无噪声文字图像和原始无噪声文字图像;
所述损失函数,用于增强所述图像降噪模型对文字骨骼信息的学习并保持降噪结果的一致。
优选的,所述生成器包括:
生成器以第二U-Net模型作为基础结构,由第一MFR块构成;
所述第二U-Net模型包括4个下采样层和4个上采样层;
每一个所述第一MFR块都包括四个子层,分别为多尺度集成层、连接层、卷积层和通道注意力机制层;
所述第一MFR块,用于处理不同尺度的复杂图像退化,重建所述无噪声文字图像;
所述多尺度集成层,用于引入不同尺度的感受野;
所述连接层,用于将所述不同尺度的感受野提取出的特征连接在一起,并输出给所述卷积层;
所述通道注意力机制层,用于捕获所述卷积层中每个特征通道的重要程度。
优选的,所述辨别器包括:
所述辨别器包括五个第二MFR块和一个全连接层;
所述第二MFR块的卷积核大小为3*3,步长为1;
所述全连接层,用于对图像进行二分类,使所述辨别器区分所述生成器输出的所述无噪声文字图像和所述原始无噪声文字图像。
优选的,所述损失函数包括骨骼损失函数、Charbonnier损失函数、逐像素图像重建损失和GAN损失函数;
所述骨骼损失函数为:
Figure BDA0003853609310000051
其中,θSK是损失函数的权重系数;H、W是骨骼图像的高度和宽度;SK(x)是骨骼提取网络从文字噪声图像x中提取的骨骼图像;
Figure BDA0003853609310000052
是文字骨骼图像;||·||1是L1范数;
所述Charbonnier损失函数为:
Figure BDA0003853609310000053
其中,y是原始无噪声文字图像;
Figure BDA0003853609310000054
是生成的文字图像;θCh为损失函数的权重系数;H、W和C是输入图像的高度、宽度和通道数;ε=1×10-3为常量,为了使数值稳定;
所述逐像素图像重建损失Lrec和GAN损失函数
Figure BDA0003853609310000055
的为:
Figure BDA0003853609310000056
Figure BDA0003853609310000057
以上的θrec,θGAN为相应损失函数的权重;D(·)是辨别器网络的输出结果;
生成器LG的整体损失函数的为:
Figure BDA0003853609310000058
辨别器LD的整体损失函数是GAN的损失,如下所示:
Figure BDA0003853609310000059
优选的,所述文字骨骼提取网络和所述生成对抗网络,均采用了跳跃连接,使得所述上采样层的计算能够利用到所述下采样层对应层和底层的原始信息;
所述生成对抗网络采用Adam作为优化器,所述生成器与所述辨别器达到纳什均衡时,所述生成对抗网络训练结束,所述生成器输出所述历史文档噪声图像的降噪结果。
一种基于生成对抗网络的历史文档图像降噪系统:
包括训练集构建模块、文字骨骼提取网络构建模块、生成对抗网络构建模块、降噪结果获得模块;
所述训练集构建模块,用于构建文字骨骼提取网络训练集和生成对抗网络训练集;
所述文字骨骼提取网络构建模块,用于基于所述文字骨骼提取网络训练集,构建文字骨骼提取网络,获得文字骨骼图像;
所述生成对抗网络构建模块,用于基于所述生成对抗网络训练集和所述文字骨骼图像,构建所述生成对抗网络,获得图像降噪模型;
所述降噪结果获得模块,用于对所述图像降噪模型进行训练,基于训练好的所述图像降噪模型,获得历史文档噪声图像的降噪结果。
本申请的有益效果为:由上述技术方案可知,本申请提出了一个新的模型结构,将文字骨骼信息首次应用于历史文档图像降噪中,还通过多尺度融合策略构建了一个基于生成对抗网络的图像降噪系统,解决了历史文档图像中对于复杂噪声的处理问题,使图像降噪质量得到显著提高,具有很强的利用价值。本申请具有广阔的推广空间和使用价值。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的方法流程图;
图2为实施例一中生成对抗网络的生成器网络结构图;
图3为实施例一中多尺度特征融合残差块结构图;
图4为实施例一中生成对抗网络的辨别器网络结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一:一种基于生成对抗网络的历史文档图像降噪方法;
如图1所示,一种基于生成对抗网络的历史文档图像降噪方法,具体的实现步骤如下:
S1、构建数据集:
首先获取历史文档图像,对其进行二值化处理,标注出文字的单像素骨骼,从而获得训练集文字骨骼图像。然后,将无噪声图像和与其对应的噪声图像作为生成对抗网络的训练样本,将噪声图像和与其对应的训练集文字骨骼图像作为文字骨骼提取网络的训练样本,以此来构建训练集。无噪声图像即为干净图像。
S2、构建文字骨骼提取网络:
文字骨骼提取网络以U型结构为基础,由卷积神经网络构成,用于从输入的噪声图像中提取出文字骨骼图像。
进一步地,文字骨骼提取网络以第一U-Net模型作为基础结构,主要包括10个卷积层,其中有5个下采样层和5个上采样层。下采样层和上采样层的卷积核大小均为4*4,步长为2,padding为1,连接卷积层输出的是归一化层Instance Normalization和激活函数LeakyReLU。网络采用跳跃连接使得上采样层的计算能够利用到下采样层对应层和低层的原始信息。这样的跳跃连接传递的特征信息将不会只来自于单一的特征图,实现了让低层特征感知高层特征的语义信息,并以逐层融合叠加的方式维持并强化语义的传递。
S3、构建生成对抗网络:
生成对抗网络包括生成器和辨别器两部分。将提取的文字骨骼图像和与其对应的噪声图像作为生成器的输入,目的是输出无噪声文字图像。辨别器用于区分生成器产生的无噪声文字图像和原始无噪声文字图像。无噪声文字图像即为干净的文字图像。
进一步地,本发明中的生成器网络以U型结构为基础,主要由基于空洞卷积的多尺度特征融合残差块(MFR)组成,并且使用跳跃连接来防止模糊输出。每个第一MFR块由四部分构成,包括多尺度集成层、连接层、卷积层和通道注意力机制层。第一MFR用来处理不同尺度的复杂图像退化,在对抗训练中逐渐学会重建无噪声文字图像,并且输出图像应该保持文字的结构一致性。构建尺度集成层的目的是引入不同尺度的感受野来增强特征提取并提高模型的性能。针对图像复杂退化的短距离和长距离依赖,连接层将不同尺度的感受野提取出的特征连接在一起,并输出给卷积层。为捕获卷积层中每个特征通道的重要程度,然后依照重要程度去提升有用的特征并抑制对当前任务用处不大的特征,故卷积层后连接有一层基于通道注意力机制的SENet,最后应用残差连接作为MFR的最终输出结果。
多尺度集成层中采用空洞卷积来提取不同尺度的特征。在这个实现方法中主要考虑两个要求:①建立一个大的感受野需要通过大内核捕获长距离依赖;②增大卷积层的核大小时增加的计算成本。为了满足这两个要求,MFR在尺度集成层中并行堆叠了三个具有不同扩张率的空洞卷积层。假设F是输入特征图,则:
Fd=DilatedConv(F,λ)
其中,Fd是空洞卷积层处理后的特征图,DilatedConv(·)是空洞卷积层的处理过程,且扩张率λ={1,2,3}。
辨别器网络由五个第二MFR块和一个全连接层构成,负责区分生成图像和真实图像。将第二MFR引入辨别器网络,是为了同时学习不同尺度下的图像特征,从而检查不同尺度下图像内容的不一致性。
构建生成对抗网络的具体步骤为:
(1)构建生成器网络:
生成器以第二U-Net模型作为基础结构,包括4个下采样层和4个上采样层,如图2所示。将噪声图像与提取的文字骨骼图像作为生成器输入,生成器由第一MFR块组成。每个第一MFR包括四个子层,分别为多尺度集成层、连接层、卷积层和通道注意力机制层,如图3所示。
本实施例中的多尺度集成层由空洞卷积实现。上采样层和下采样层均并行堆叠三个卷积核大小为4*4,步长为2,填充为padding={1,2,3},扩张率为λ={1,2,3}的多尺度集成层。提取出不同尺度的特征图后,将三组特征图通过连接层拼接在一起,连接层后依次是归一化BatchNorm和激活函数ReLU的处理。经过多尺度集成层和连接层的处理后,将处理结果作为卷积层的输入,其中卷积层的卷积核大小为4*4,步长为2,padding为1。连接卷积层的是基于通道注意力机制的SENet,包括压缩和激励两部分。压缩部分采用global averagepooling实现,将每个通道压缩为1维,相当于获得了每个通道的全局视野,感受区域更广。激励部分采用两层全连接层,连接的激活函数分别为ReLU和Sigmoid,为其输出的权重是经过特征选择后的每个特征通道的重要程度,然后通过乘法加权到特征图的每个通道中,提升有用特征并抑制对结果作用不大的特征。最后,应用残差连接作为本层生成单元的最终输出结果,并作为下一个生成单元的输入。上采样层的卷积层后还连接有归一化InstanceNorm和激活函数ReLU的处理。最后一个上采样层的结构有所不同,首先是一个扩张率为2的上采样,然后对边界进行零填充,连接零填充输出的是卷积层,其中卷积核大小为4*4,步长为1,padding为1,连接卷积层输出的是激活函数Tanh。
构建的生成对抗网络采用跳跃连接使得上采样层的计算能够利用到下采样层对应层和低层的原始信息,从而防止模糊输出。为了防止过拟合,模型中还采用了Dropout。
(2)构建辨别器网络:
辨别器网络依次由五个第二MFR块和一个全连接层组成,如图4所示。辨别器的第二MFR块的卷积核大小为3*3,步长为1,其余结构与生成器类似。将生成器产生的图像与原始无噪声图像作为辨别器的输入,依次经过5个第二MFR的处理后,最终由全连接层对图像做二分类,使辨别网络能够区分生成图像与真实图像。
(3)构建生成对抗网络的损失函数:
为细化损失类型,以指导模型的训练向正确的方向进行。本发明提出了一种新颖的基于像素的损失函数LSK,即骨骼损失,用于增强模型对骨骼信息的学习并保持降噪结果的一致性。骨骼损失函数可以定义为:
Figure BDA0003853609310000111
其中,θSK是损失函数的权重系数;H、W是骨骼图像的高度和宽度;SK(x)是骨骼提取网络从文字噪声图像x中提取的骨骼图像;
Figure BDA0003853609310000112
是文字骨骼图像;||·||1是L1范数。
本发明还考虑应用具有鲁棒性的Charbonnier损失函数,可以更好地处理异常值,优化深层网络和提高重建的准确性。Charbonnier损失函数可以定义为:
Figure BDA0003853609310000121
其中,y是原始无噪声文字图像;
Figure BDA0003853609310000122
是生成的文字图像;θCh为损失函数的权重系数;H、W和C是输入图像的高度、宽度和通道数;ε=1×10-3为常量,为了使数值稳定。
同时,我们还将常见的逐像素图像重建损失Lrec和GAN损失函数
Figure BDA0003853609310000123
应用于生成器中,如下所示:
Figure BDA0003853609310000124
Figure BDA0003853609310000125
以上的θrec,θGAN为相应损失函数的权重;D(·)是辨别器网络的输出结果。因此,生成器LG的整体损失函数的定义如下所示:
Figure BDA0003853609310000126
判别器的整体损失函数是GAN的损失,如下所示:
Figure BDA0003853609310000127
生成对抗网络均采用Adam作为优化器,训练过程是让生成器与辨别器相互竞争,两者在交替训练的过程中能力不断提升,最终生成器通过学习真实数据的本质特征,生成与真实数据相似的新数据。辨别器用于指导生成器如何调整以得到更为接近真实数据的生成数据,防止反复训练过程呈现的发散状态。在生成器与辨别器达到纳什均衡时就意味着生成对抗网络训练结束。此时,生成器产生的图像就是最终历史文档图像的降噪结果。
S4、通过训练好的生成对抗网络得到噪声图像的降噪结果。
实施例二:一种基于生成对抗网络的历史文档图像降噪系统
一种基于生成对抗网络的历史文档图像降噪系统,包括训练集构建模块、文字骨骼提取网络构建模块、生成对抗网络构建模块、降噪结果获得模块;
训练集构建模块,用于构建文字骨骼提取网络训练集和生成对抗网络训练集;
文字骨骼提取网络构建模块,用于基于文字骨骼提取网络训练集,构建文字骨骼提取网络,获得文字骨骼图像;
生成对抗网络构建模块,用于基于生成对抗网络训练集和文字骨骼图像,构建生成对抗网络,获得图像降噪模型;
降噪结果获得模块,用于对图像降噪模型进行训练,基于训练好的图像降噪模型,获得历史文档噪声图像的降噪结果。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (9)

1.一种基于生成对抗网络的历史文档图像降噪方法,其特征在于,包括如下步骤:
基于历史文档图像,构建文字骨骼提取网络训练集和生成对抗网络训练集;
基于所述文字骨骼提取网络训练集,构建文字骨骼提取网络,获得文字骨骼图像;
基于所述生成对抗网络训练集和所述文字骨骼图像,构建生成对抗网络,获得图像降噪模型;
对所述图像降噪模型进行训练,基于训练好的所述图像降噪模型,获得历史文档噪声图像的降噪结果。
2.根据权利要求1所述基于生成对抗网络的历史文档图像降噪方法,其特征在于,构建文字骨骼提取网络训练集和生成对抗网络训练集的方法包括:
对所述历史文档图像进行二值化处理,标注出文字的单像素骨骼,从而获得训练集文字骨骼图像;
基于噪声图像和与所述噪声图像对应的所述训练集文字骨骼图像,构建文字骨骼提取网络训练集;
基于无噪声图像和与所述无噪声图像对应的噪声图像,构建所述生成对抗网络训练集。
3.根据权利要求1所述基于生成对抗网络的历史文档图像降噪方法,其特征在于,
所述文字骨骼提取网络以第一U-Net模型为基础结构,由卷积神经网络构成;
所述第一U-Net模型包括10个卷积层,其中有5个下采样层和5个上采样层;
所述下采样层和所述上采样层的卷积核大小均为4*4,步长为2,padding为1;
连接所述卷积层输出的是归一化层Instance Normalization和激活函数LeakyReLU。
4.根据权利要求2所述基于生成对抗网络的历史文档图像降噪方法,其特征在于,
所述生成对抗网络包括生成器、辨别器和损失函数;
基于所述文字骨骼图像和与所述文字骨骼图像对应的噪声图像,构建所述生成器,所述生成器用于输出无噪声文字图像;
所述辨别器,用于区分所述生成器输出的无噪声文字图像和原始无噪声文字图像;
所述损失函数,用于增强所述图像降噪模型对文字骨骼信息的学习并保持降噪结果的一致。
5.根据权利要求4所述基于生成对抗网络的历史文档图像降噪方法,其特征在于,
所述生成器以第二U-Net模型作为基础结构,由第一MFR块构成;
所述第二U-Net模型包括4个下采样层和4个上采样层;
每一个所述第一MFR块都包括四个子层,分别为多尺度集成层、连接层、卷积层和通道注意力机制层;
所述第一MFR块,用于处理不同尺度的复杂图像退化,重建所述无噪声文字图像;
所述多尺度集成层,用于引入不同尺度的感受野;
所述连接层,用于将所述不同尺度的感受野提取出的特征连接在一起,并输出给所述卷积层;
所述通道注意力机制层,用于捕获所述卷积层中每个特征通道的重要程度。
6.根据权利要求4所述基于生成对抗网络的历史文档图像降噪方法,其特征在于,所述辨别器包括:
所述辨别器包括五个第二MFR块和一个全连接层;
所述第二MFR块的卷积核大小为3*3,步长为1;
所述全连接层,用于对图像进行二分类,使所述辨别器区分所述生成器输出的无噪声文字图像和所述原始无噪声文字图像。
7.根据权利要求4所述基于生成对抗网络的历史文档图像降噪方法,其特征在于,
所述损失函数包括骨骼损失函数、Charbonnier损失函数、逐像素图像重建损失和GAN损失函数;
所述骨骼损失函数为:
Figure FDA0003853609300000031
其中,θSK是损失函数的权重系数;H、W是骨骼图像的高度和宽度;SK(x)是骨骼提取网络从文字噪声图像x中提取的骨骼图像;
Figure FDA0003853609300000032
是文字骨骼图像;||·||1是L1范数;
所述Charbonnier损失函数为:
Figure FDA0003853609300000041
其中,y是原始无噪声文字图像;
Figure FDA0003853609300000042
是生成的文字图像;θCh为损失函数的权重系数;H、W和C是输入图像的高度、宽度和通道数;ε=1×10-3为常量,为了使数值稳定;
所述逐像素图像重建损失Lrec和GAN损失函数
Figure FDA0003853609300000043
的为:
Figure FDA0003853609300000044
Figure FDA0003853609300000045
以上的θrec,θGAN为相应损失函数的权重;D(·)是辨别器网络的输出结果;
生成器LG的整体损失函数的为:
Figure FDA0003853609300000046
辨别器LD的整体损失函数是GAN的损失,如下所示:
Figure FDA0003853609300000047
8.根据权利要求7所述基于生成对抗网络的历史文档图像降噪方法,其特征在于,
所述文字骨骼提取网络和所述生成对抗网络,均采用了跳跃连接,使得所述上采样层的计算能够利用到所述下采样层对应层和底层的原始信息;
所述生成对抗网络采用Adam作为优化器,所述生成器与所述辨别器达到纳什均衡时,所述生成对抗网络训练结束,所述生成器输出所述历史文档噪声图像的降噪结果。
9.一种基于生成对抗网络的历史文档图像降噪系统,其特征在于,包括训练集构建模块、文字骨骼提取网络构建模块、生成对抗网络构建模块、降噪结果获得模块;
所述训练集构建模块,用于构建文字骨骼提取网络训练集和生成对抗网络训练集;
所述文字骨骼提取网络构建模块,用于基于所述文字骨骼提取网络训练集,构建文字骨骼提取网络,获得文字骨骼图像;
所述生成对抗网络构建模块,用于基于所述生成对抗网络训练集和所述文字骨骼图像,构建所述生成对抗网络,获得图像降噪模型;
所述降噪结果获得模块,用于对所述图像降噪模型进行训练,基于训练好的所述图像降噪模型,获得历史文档噪声图像的降噪结果。
CN202211141204.8A 2022-09-20 2022-09-20 一种基于生成对抗网络的历史文档图像降噪方法及系统 Active CN115457568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211141204.8A CN115457568B (zh) 2022-09-20 2022-09-20 一种基于生成对抗网络的历史文档图像降噪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211141204.8A CN115457568B (zh) 2022-09-20 2022-09-20 一种基于生成对抗网络的历史文档图像降噪方法及系统

Publications (2)

Publication Number Publication Date
CN115457568A true CN115457568A (zh) 2022-12-09
CN115457568B CN115457568B (zh) 2023-06-16

Family

ID=84304910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211141204.8A Active CN115457568B (zh) 2022-09-20 2022-09-20 一种基于生成对抗网络的历史文档图像降噪方法及系统

Country Status (1)

Country Link
CN (1) CN115457568B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016064A (zh) * 2023-01-12 2023-04-25 西安电子科技大学 基于u型卷积去噪自编码器的通信信号降噪方法
CN117079263A (zh) * 2023-10-16 2023-11-17 内江师范学院 一种碑文文字提取方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223254A (zh) * 2019-06-10 2019-09-10 大连民族大学 一种基于对抗生成网络的图像去噪方法
CN110533737A (zh) * 2019-08-19 2019-12-03 大连民族大学 基于结构引导汉字字体生成的方法
US20220028041A1 (en) * 2020-07-27 2022-01-27 Boe Technology Group Co., Ltd. Image denoising method and apparatus, electronic device and non-transitory computer readalble storage medium
CN114742714A (zh) * 2021-10-29 2022-07-12 天津大学 一种基于骨架提取及对抗学习的汉字图像修复算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223254A (zh) * 2019-06-10 2019-09-10 大连民族大学 一种基于对抗生成网络的图像去噪方法
CN110533737A (zh) * 2019-08-19 2019-12-03 大连民族大学 基于结构引导汉字字体生成的方法
US20220028041A1 (en) * 2020-07-27 2022-01-27 Boe Technology Group Co., Ltd. Image denoising method and apparatus, electronic device and non-transitory computer readalble storage medium
CN114742714A (zh) * 2021-10-29 2022-07-12 天津大学 一种基于骨架提取及对抗学习的汉字图像修复算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱宜生;孙成;: "基于卷积神经网络的红外图像去噪方法研究", 环境技术 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016064A (zh) * 2023-01-12 2023-04-25 西安电子科技大学 基于u型卷积去噪自编码器的通信信号降噪方法
CN117079263A (zh) * 2023-10-16 2023-11-17 内江师范学院 一种碑文文字提取方法、装置、设备及介质
CN117079263B (zh) * 2023-10-16 2024-01-02 内江师范学院 一种碑文文字提取方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115457568B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
CN111199233B (zh) 一种改进的深度学习色情图像识别方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110473142B (zh) 基于深度学习的单幅图像超分辨率重建方法
CN115457568A (zh) 一种基于生成对抗网络的历史文档图像降噪方法及系统
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN112926396A (zh) 一种基于双流卷积注意力的动作识别方法
CN112561876B (zh) 基于图像的池塘和水库的水质检测方法及系统
CN111681188B (zh) 基于结合图像像素先验和图像梯度先验的图像去模糊方法
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN110569916A (zh) 用于人工智能分类的对抗样本防御系统及方法
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN114187520B (zh) 一种建筑物提取模型的构建及应用方法
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN112270366A (zh) 基于自适应多特征融合的微小目标检测方法
CN109284752A (zh) 一种车辆的快速检测方法
CN116934613A (zh) 一种用于文字修复的分支卷积通道注意力模块
CN115273089A (zh) 一种基于条件生成对抗网络的光学字符复原方法
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质
CN113780241A (zh) 一种显著物体检测的加速方法与装置
CN113642505A (zh) 一种基于特征金字塔的人脸表情识别方法及装置
CN112597925A (zh) 手写字迹的识别/提取、擦除方法及擦除系统、电子设备
CN112329647A (zh) 基于U-Net神经网络的土地利用类型识别方法
CN116152565A (zh) 一种基于噪声指纹的图像验真检测方法及系统
CN113792617B (zh) 一种结合图像信息和文本信息的图像解译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant