CN110211064B - 一种基于边缘引导的混合退化文本图像恢复方法 - Google Patents

一种基于边缘引导的混合退化文本图像恢复方法 Download PDF

Info

Publication number
CN110211064B
CN110211064B CN201910425310.0A CN201910425310A CN110211064B CN 110211064 B CN110211064 B CN 110211064B CN 201910425310 A CN201910425310 A CN 201910425310A CN 110211064 B CN110211064 B CN 110211064B
Authority
CN
China
Prior art keywords
cnn
text image
image
processing module
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910425310.0A
Other languages
English (en)
Other versions
CN110211064A (zh
Inventor
全宇晖
杨婕婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910425310.0A priority Critical patent/CN110211064B/zh
Publication of CN110211064A publication Critical patent/CN110211064A/zh
Application granted granted Critical
Publication of CN110211064B publication Critical patent/CN110211064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于边缘引导的混合退化文本图像恢复方法,包括以下步骤:S1、单独训练EP‑CNN,计算混合退化文本图像对应的边缘图,将混合退化文本图像及其边缘图输入EP‑CNN的上采样处理模块,利用EP‑CNN的预测处理模块的输入,输出真实标签文本图像的预测边缘图;S2、单独训练GR‑CNN,将混合退化的文本图像输入到上采样处理模块,然后计算得到真实标签文本图像所对应的边缘图,通过预测处理模块输出是恢复的文本图像;S3、联合训练EP‑CNN和GR‑CNN,得到级联网络,继续对级联网络进行训练。本发明的优点是高效简便,能够显著地提高退化文本图像的视觉质量和可读性,并且优于现有的其他先进方法。

Description

一种基于边缘引导的混合退化文本图像恢复方法
技术领域
本发明涉及图像处理技术领域,特别涉及了一种基于边缘引导的混合退化文本图像恢复方法。
背景技术
文本是单词、句子、段落和书籍的组成部分。文本图像指的是以文本为主要内容的图像。这类图像是日常生活中常见的一种图像类型,例如文档图像、扫描卡片、课堂笔记图片等等。此外,图像中的文本内容为各种视觉应用提供了丰富而且精确的信息,例如图像搜索、目标地理定位、机器人导航和人机交互等等。因此,在文本提取、定位和识别方面已经积累了大量的工作。然而在实验中,相机拍摄或者从大尺寸图像中截取的文本图像的视觉质量往往会受到许多因素的影响,如低分辨率、运动/失焦模糊、低信噪比等。这种退化可能会显著降低文本图像的可读性。因此,一种能够显著提高退化文本图像视觉质量的文本图像恢复方法,在日常生活以及涉及文本处理的视觉应用中都是十分必要的。现有的文本图像恢复方法大多集中于文本图像去模糊或者超分辨率。然而,低分辨率和模糊往往同时发生在真实场景中,特别是当文本图像是从大尺寸图像中截取的时候。
低分辨率和模糊是两个最常见的退化因素,低分辨率和模糊混合的退化可能使得文本图像的内容完全无法识别。假设
Figure BDA0002067312610000017
表示一张高质量的文本图像,而退化后的文本图像用
Figure BDA0002067312610000012
来表示,那么y可以被建模为
y=DBx+n,(1)
其中,
Figure BDA0002067312610000013
表示一个可能包含抗锯齿处理的下采样操作算子,
Figure BDA0002067312610000016
表示一个模糊操作算子,
Figure BDA0002067312610000015
表示噪声。
在实际应用中,模糊算子B通常是未知的,准确估计B是一个非常具有挑战性的任务。此外,一个实际的下采样算子通常涉及到一个抗锯齿处理过程,其平滑核也是未知的。一般情况下,没有额外的输入,很难可靠地估计DB。
文本图像的去模糊可以使用一般的图像去模糊方法来实现,这些方法通常依赖于对图像梯度的一些统计先验。然而这些基于一般自然图像的先验对于文本图像来说是不准确的。例如,文本图像不服从图像梯度的重尾分布,而图像梯度的重尾分布常常应用于图像去模糊技术中。同样的,文本图像的超分辨率也可以通过调用一般的图像超分辨率方法来实现。但由于文本图像的特殊性,针对文本图像设计的方法比一般方法具有更好的性能。现有的文本图像超分辨率方法大多是基于范例的方法,它们使用来自高分辨率和低分辨率图像的样本块来指导恢复过程。基于范例的方法严重依赖于样本块的数据集,通常只适用于文档图像。有研究发现,在对低分辨率和模糊的图像进行恢复的时候,连续应用去模糊和超分辨率技术往往不能取得令人满意的效果。
发明内容
针对文本图像的特点,本发明将边缘引导机制引入卷积神经网络,旨在恢复低分辨率和模糊的退化文本图像,从而大大提高其可读性,可以应用于带有文字处理模块的移动设备和各种视觉任务中。边缘引导机制的引入是由于文本图像的边缘图与其本身具有很强的相关性。事实上,在识别方面,其边缘图几乎与文本图像本身是一样的。换句话说,在预测的文本图像边缘图的引导下,即使不知道退化过程,也可以直接依据退化后的图像恢复出高质量的文本图像。从某种意义上说,边缘图的引导使得退化图像与恢复图像之间的映射更加可能,也更容易学习。
在卷积神经网络中,本发明使用了一对对偶神经网络来实现边缘引导机制。简单地说,一个卷积神经网络经过训练,用于预测真实标签文本图像的边缘图;另一个卷积神经网络经过训练,在预测边缘图的帮助下来恢复退化的文本图像。其中有一个问题是边缘图能否被准确预测。由于文本图像在边缘上有其特殊的特征,因此边缘预测的任务相比自然图像要容易得多。例如,在文本图像中,大部分边缘具有足够大的尺寸,并且这些边缘的方向是多样的,这是已知的使得图像去模糊更加容易的配置。
本发明所提出的卷积神经网络,包含一对对偶神经网络:一个是边缘预测子网络(Edgeprediction Convolutional Neural Network,EP-CNN),用于预测真实标签文本图像的边缘图;一个是边缘引导恢复子网络(Edge-guided recovery Convolutional NeuralNetwork,GR-CNN),以退化的文本图像和预测的边缘图作为输入,用来恢复未知的清晰图像。为了使得两个子网络能够更好地发挥各自的作用,本发明采用首先分别训练两个子网络,然后再联合训练的方式。
为了能够在更加广泛的文本图像上评估性能,本发明广泛收集高分辨率并且清晰的复杂文本图像,经过数据清洗和整理,建立了一个复杂文本图像数据集,用于神经网络的训练,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片;用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后,得到的低分辨率并且模糊的混合退化的文本图像。
本发明至少通过如下技术方案之一实现。
一种基于边缘引导的混合退化文本图像恢复方法,包括以下步骤:
S1、单独训练边缘预测子网络(Edge prediction Convolutional NeuralNetwork,EP-CNN),先将低分辨率并且模糊的混合退化文本图像输入到EP-CNN,计算其对应的边缘图,然后将混合退化的文本图像及其边缘图输入EP-CNN的上采样处理模块,上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,最后输出真实标签文本图像的预测边缘图;所述真实标签文本图像指的是高分辨率并且清晰的目标文本图像;
S2、单独训练边缘引导恢复子网络(Edge-guided recovery ConvolutionalNeural Network,GR-CNN),首先将混合退化的文本图像输入到GR-CNN的上采样处理模块,得到与真实标签文本图像尺寸大小相同的图像,然后通过计算得到真实标签文本图像所对应的边缘图,再将经过上采样处理模块得到的输出与真实标签文本图像的边缘图输入到GR-CNN的预测处理模块,GR-CNN最终的输出是恢复的文本图像;
S3、联合训练EP-CNN和GR-CNN,得到级联网络,继续对级联网络进行训练,提高图像的恢复效果。
进一步地,在进行步骤S1之前,先建立文本图像数据集,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片;用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后,得到的低分辨率并且模糊的混合退化的文本图像。
进一步地,步骤S1所述边缘预测子网络(EP-CNN)表示为
Figure BDA0002067312610000031
其中,f表示EP-CNN的过程,
Figure BDA0002067312610000039
表示EP-CNN的参数向量,
Figure BDA0002067312610000033
表示输入的混合退化的文本图像,
Figure BDA0002067312610000034
表示输出的真实标签文本图像的预测边缘图,→表示EP-CNN从输入到输出的处理过程,
Figure BDA0002067312610000038
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示U的长度和宽度,并且N1>M1,N2>M2,C表示Y的通道数目,当Y为灰度图像时,C=1,当Y为彩色图像时,C=3。
进一步地,步骤S2所述边缘引导恢复子网络(GR-CNN)表示为
g((Y,S)|ψ):(Y,S)→Os,(3)
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,
Figure BDA0002067312610000035
表示输入的混合退化的文本图像,
Figure BDA0002067312610000036
表示Y所对应的真实标签文本图像通过公式(5)计算所得到的边缘图,
Figure BDA0002067312610000037
表示基于输入Y和S,GR-CNN输出的恢复图像,→表示GR-CNN从输入到输出的处理过程,
Figure BDA0002067312610000041
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示S和Os的长度和宽度,并且N1>M1,N2>M2,C表示Y和Os的通道数目。
进一步地,步骤S3所述的联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN)表示为:
Figure BDA00020673126100000414
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,
Figure BDA00020673126100000415
和ψ分别表示EP-CNN和GR-CNN的参数向量,
Figure BDA0002067312610000043
表示输入的混合退化的文本图像,
Figure BDA0002067312610000044
表示基于输入Y和EP-CNN输出的预测边缘图,GR-CNN输出的恢复图像,→表示联合训练EP-CNN和GR-CNN从输入到输出的处理过程,
Figure BDA00020673126100000411
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2分别表示O的长度和宽度,并且N1>M1,N2>M2,C表示Y和O的通道数目。
进一步地,步骤S1所述的单独训练边缘预测子网络(EP-CNN)具体包括以下步骤:
S11、在EP-CNN中,输入混合退化的文本图像Y,其边缘图E通过公式(5)进行计算,
Figure BDA0002067312610000045
其中,E(x,y)表示边缘图E在二维空间点(x,y)处的像素值,C表示Y的通道数目,
Figure BDA0002067312610000046
表示点(x,y)的空间邻域,
Figure BDA0002067312610000047
表示包含在点
Figure BDA0002067312610000048
空间邻域内的所有点,Y(x,y,c)表示Y在三维空间点(x,y,c)处的像素值,同理,Y(x0,y0,c)表示Y在三维空间点(x0,y0,c)处的像素值;
S12、将Y和其通过公式(5)计算所得的边缘图,叠成一个(C+1)通道的张量,输入到EP-CNN的上采样处理模块中,上采样处理模块如下:
Figure BDA0002067312610000049
其中,→表示EP-CNN上采样处理模块从输入到输出的处理过程,
Figure BDA00020673126100000412
表示图像的空间维度,M1、M2和(C+1)分别表示输入张量的长度、宽度和通道数目,N1、N2和D分别表示上采样处理模块输出张量的长度、宽度和通道数目,D是EP-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2
S13、将上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,预测处理模块如下:
Figure BDA00020673126100000410
其中,→表示EP-CNN预测处理模块从输入到输出的处理过程,
Figure BDA00020673126100000413
表示图像的空间维度,N1和N2分别表示预测处理模块输入和输出张量的长度和宽度,D表示输入张量的通道数目,用U来表示预测处理模块输出的真实标签文本图像的预测边缘图;
步骤S11~步骤S13描述单独训练EP-CNN的详细过程步骤,依据公式(8)中的损失函数来单独训练EP-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像,Sk表示Xk通过公式(5)计算所得到的边缘图,Sk表示的是第k张真实标签文本图像的边缘图,Uk表示EP-CNN输出的Xk的预测边缘图,根据公式(2)得
Figure BDA0002067312610000051
损失函数
Figure BDA00020673126100000511
为:
Figure BDA0002067312610000053
其中,f表示EP-CNN的过程,
Figure BDA0002067312610000054
表示EP-CNN的参数向量,
Figure BDA0002067312610000058
表示梯度算子,损失函数
Figure BDA0002067312610000055
的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出。
进一步地,步骤S2所述的单独训练边缘引导恢复子网络(GR-CNN)具体包括以下步骤:
S21、在GR-CNN中,输入混合退化的文本图像Y到GR-CNN的上采样处理模块中,上采样处理模块如下:
Figure BDA0002067312610000056
其中,→表示GR-CNN上采样处理模块从输入到输出的处理过程,
Figure BDA0002067312610000059
表示图像的空间维度,M1、M2和C分别表示输入图像Y的长度、宽度和通道数目,N1、N2和D分别表示上采样处理模块输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2
S22、在GR-CNN中,输入真实标签文本图像,根据公式(5)计算得到其对应的边缘图S,将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量,输入到GR-CNN的预测处理模块中,预测处理模块如下:
Figure BDA0002067312610000057
其中,→表示GR-CNN预测处理模块从输入到输出的处理过程,
Figure BDA00020673126100000510
表示图像的空间维度,N1和N2分别表示输入和输出张量的长度和宽度,(D+1)表示输入张量的通道数目,D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,C表示输出张量的通道数目;
步骤S21~步骤S22描述单独训练GR-CNN的详细过程步骤,依据公式(11)中的损失函数来单独训练GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Sk表示Xk通过公式(5)计算所得到的边缘图,
Figure BDA0002067312610000061
表示基于输入Yk和Sk,GR-CNN输出的恢复图像,根据公式(3)得
Figure BDA0002067312610000062
损失函数
Figure BDA00020673126100000611
为:
Figure BDA0002067312610000063
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,
Figure BDA0002067312610000068
表示梯度算子,损失函数
Figure BDA00020673126100000612
的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出。
进一步地,步骤S3所述的联合训练具体如下:
步骤S3所述的联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN),是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U,级联EP-CNN和GR-CNN网络,基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN两个子网络的模型参数结果,继续对级联网络进行训练;
依据公式(12)中的损失函数,来联合训练EP-CNN和GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Uk表示EP-CNN输出的Xk的预测边缘图,Ok表示基于输入Yk和Uk,GR-CNN输出的恢复图像,根据公式(4)得
Figure BDA00020673126100000610
损失函数
Figure BDA0002067312610000065
为:
Figure BDA0002067312610000066
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,
Figure BDA0002067312610000067
和ψ分别表示EP-CNN和GR-CNN的参数向量,
Figure BDA0002067312610000069
表示梯度算子。
进一步地,EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构,该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成,每一层都使用64个大小为6×6的卷积核,其后都跟着批标准化层(BatchNormalization)和修正线性单元层(Rectified Linear Unit,ReLU),所述反卷积层的步长均为2,卷积层的步长为1。
进一步地,EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构,包括16个卷积层,每个卷积层使用64个大小为3×3的卷积核,除了最后一个卷积层以外,所有的卷积层后面都跟着BatchNormalization层和ReLU层,中间10个卷积层通过5个残差单元(Residualblock)来实现,在进入残差单元前使用一个步长为2的卷积层,在残差单元之后使用一个步长为2的反卷积层,其他卷积层的步长均为1。
本发明与现有技术相比,具有以下优点和有益效果:
高质量的文本图像数据集能够极大地提高用于文本图像恢复的深度学习方法的学习能力。目前,这样的文本图像数据集很少,可用的数据集仅限于文档图像。本发明提供了一个大型的基准数据集,其中文本图像的类型非常多样化,这对文本图像处理相关的社区研究工作非常有益。
在已有的文档图像数据集以及本发明提出的复杂文本图像数据集上的实验结果均表明,本发明可以大大提高低分辨率并且模糊的混合退化文本图像的视觉质量,无论是在定量度量方面还是视觉质量方面,都优于现有的最先进的方法。
附图说明
图1是本实施例一种基于边缘引导的混合退化文本图像恢复方法的流程图;
图2是本实施例单独训练EP-CNN的训练流程图;
图3是本实施例单独训练GR-CNN的训练流程图;
图4是本实施例EP-CNN和GR-CNN所采用的上采样处理模块的网络架构;
图5是本实施例EP-CNN和GR-CNN所采用的预测处理模块的网络架构;
图6a是基于文档图像数据集实例,输入的混合退化文档图像;
图6b是基于文档图像数据集实例,使用GFN方法(Gated Fusion Network forJoint ImageDeblurring and Super-Resolution)产生的视觉效果图;
图6c是基于文档图像数据集实例,使用SCGAN方法(Learning to Super-ResolveBlurry Face and Text Images)产生的视觉效果图;
图6d是基于文档图像数据集实例,使用本发明的产生视觉效果图;
图6e是基于文档图像数据集实例,混合退化文档图像图6a对应的真实标签文本图像;
图7a是基于复杂文本图像数据集实例,输入的混合退化复杂文本图像;
图7b是基于复杂文本图像数据集实例,使用GFN方法产生的视觉效果图;
图7c是基于复杂文本图像数据集实例,使用SCGAN方法产生的视觉效果图;
图7d是基于复杂文本图像数据集实例,使用本发明产生的视觉效果图;
图7e是基于复杂文本图像数据集实例,混合退化复杂文本图像图7a对应的真实标签文本图像;
图8a是基于真实文本图像实例,输入的真实退化文本图像;
图8b是基于真实文本图像实例,使用GFN方法产生的视觉效果图;
图8c是基于真实文本图像实例,使用SCGAN方法产生的视觉效果图;
图8d是基于真实文本图像实例,使用本发明产生的视觉效果图。
具体实施方式
下面结合实施例子以及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
目前可以用于文本图像恢复训练的可用数据集非常少。在Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and Text Images”中提出了一个可用的文档图像数据集。在这个数据集中,训练集包含100多万个16×16的低分辨率模糊图像块,这些图像块是从
Figure BDA0002067312610000084
等人的“Convolutional Neural Networks for DirectTextDeblurring”中提出的数据集裁剪出来的64×64的模糊图像块经过下采样因子为4的双三次插值而生成的。训练数据中存在两种模糊类型:(1)随机游走产生的运动模糊,模糊核尺寸在[5,21]区间内采样;(2)由抗锯齿圆盘实现的失焦模糊,半径从[0,4]区间内采样。然后添加从[0,7/255]区间内采样的零均值独立同分布高斯噪声。对于测试集,通过上述两种类型的模糊和下采样操作,共产生了100张低分辨率的模糊文本图像。但是上述数据集中的图像基本都是背景单一的文档图像。
为了能够在更加广泛的文本图像上评估性能,在本实施例中,广泛收集高分辨率并且清晰的复杂文本图像,经过数据清洗和整理,建立了一个复杂文本图像数据集,用于神经网络训练,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片。同样地,复杂文本图像数据集使用
Figure BDA0002067312610000085
等人的“Convolutional Neural Networksfor DirectText Deblurring”中提出的两种模糊类型和下采样因子为4的双三次插值来生成混合退化文本图像。复杂文本图像数据集被划分为包含100多万个50×50的混合退化文本图像块的训练集和包含1138张图片的测试集。
本实施例中包括两个不同的文本图像数据集,一个是Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and Text Images”中提出的文档图像数据集,一个是本发明提出的复杂文本图像数据集。
如图1所示的一种基于边缘引导的混合退化文本图像恢复方法来恢复混合退化文本图像,具体包括以下步骤:
S1、边缘预测子网络(EP-CNN)表示为
Figure BDA0002067312610000081
其中,f表示EP-CNN的过程,
Figure BDA0002067312610000082
表示EP-CNN的参数向量,
Figure BDA0002067312610000083
表示输入的混合退化的文本图像,
Figure BDA0002067312610000091
表示输出的真实标签文本图像的预测边缘图,→表示EP-CNN从输入到输出的处理过程,
Figure BDA0002067312610000092
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示U的长度和宽度,并且N1>M1,N2>M2,C表示Y的通道数目,当Y为灰度图像时,C=1,当Y为彩色图像时,C=3。
如图2所示,单独训练EP-CNN具体步骤如下:
S11、在EP-CNN中,输入混合退化的文本图像Y,其边缘图E通过公式(2)进行计算,
Figure BDA0002067312610000093
其中,E(x,y)表示边缘图E在二维空间点(x,y)处的像素值,C表示Y的通道数目,
Figure BDA0002067312610000094
表示点(x,y)的空间邻域,
Figure BDA0002067312610000095
表示包含在点
Figure BDA0002067312610000096
空间邻域内的所有点,Y(x,y,c)表示Y在三维空间点(x,y,c)处的像素值,同理,Y(x0,y0,c)表示Y在三维空间点(x0,y0,c)处的像素值;
S12、将Y和其通过公式(2)计算所得的边缘图,叠成一个(C+1)通道的张量,输入到EP-CNN的上采样处理模块中,上采样处理模块如下:
Figure BDA0002067312610000097
其中,→表示EP-CNN上采样处理模块从输入到输出的处理过程,
Figure BDA00020673126100000912
表示图像的空间维度,M1、M2和(C+1)分别表示上采样处理模块输入张量的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2
S13、将上采样处理模块的输出张量作为到EP-CNN的预测处理模块的输入,预测处理模块如下:
Figure BDA0002067312610000098
其中,→表示EP-CNN预测处理模块从输入到输出的处理过程,
Figure BDA0002067312610000099
表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,D表示输入张量的通道数目,用U来表示预测处理模块输出的真实标签文本图像的预测边缘图;
步骤S11~步骤S13描述了单独训练EP-CNN的详细过程步骤,依据公式(5)中的损失函数来单独训练EP-CNN。使用{(Xk,Yk),1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像,Sk表示Xk通过公式(2)计算所得到的边缘图,Uk表示EP-CNN输出的Xk的预测边缘图。根据公式(1)得
Figure BDA00020673126100000910
损失函数
Figure BDA00020673126100000913
为:
Figure BDA0002067312610000101
其中,f表示EP-CNN的过程,
Figure BDA00020673126100001012
表示EP-CNN的参数向量,
Figure BDA0002067312610000108
表示梯度算子,损失函数
Figure BDA0002067312610000102
的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出。
S2、边缘引导恢复子网络(GR-CNN)表示为
g((Y,S)|ψ):(Y,S)→Os,(6)
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,
Figure BDA0002067312610000103
表示输入的混合退化的文本图像,
Figure BDA0002067312610000104
表示Y所对应的真实标签文本图像通过公式(2)计算所得到的边缘图,
Figure BDA0002067312610000105
表示基于输入Y和S,GR-CNN输出的恢复图像,→表示GR-CNN从输入到输出的处理过程,
Figure BDA0002067312610000109
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示S和OS的长度和宽度,并且N1>M1,N2>M2,C表示Y和Os的通道数目。
如图3所示,单独训练GR-CNN具体步骤如下:
S21、在GR-CNN中,输入混合退化的文本图像Y到GR-CNN的上采样处理模块中,上采样处理模块如下:
Figure BDA0002067312610000106
其中,→表示GR-CNN上采样处理模块从输入到输出的处理过程,
Figure BDA00020673126100001010
表示图像的空间维度,M1、M2和C分别表示上采样处理模块输入图像Y的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2
S22、在GR-CNN中,输入真实标签文本图像,根据公式(2)计算得到其对应的边缘图S,将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量,输入到GR-CNN的预测处理模块中,预测处理模块如下:
Figure BDA0002067312610000107
其中,→表示GR-CNN预测处理模块从输入到输出的处理过程,
Figure BDA00020673126100001011
表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,(D+1)表示输入张量的通道数目,D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,C表示输出张量的通道数目;
步骤S21~步骤S22描述单独训练GR-CNN的详细过程步骤,依据公式(9)中的损失函数来单独训练GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Sk表示Xk通过公式(2)计算所得到的边缘图,
Figure BDA0002067312610000111
表示基于输入Yk和Sk,GR-CNN输出的恢复图像,根据公式(6)得
Figure BDA0002067312610000112
损失函数
Figure BDA00020673126100001116
为:
Figure BDA0002067312610000113
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,
Figure BDA00020673126100001111
表示梯度算子,损失函数
Figure BDA00020673126100001117
的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出。
S3、联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN)表示为:
Figure BDA0002067312610000114
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,
Figure BDA00020673126100001114
和ψ分别表示EP-CNN和GR-CNN的参数向量,
Figure BDA0002067312610000115
表示输入的混合退化的文本图像,
Figure BDA0002067312610000116
表示基于输入Y和EP-CNN输出的预测边缘图,GR-CNN输出的恢复图像,→表示联合训练EP-CNN和GR-CNN从输入到输出的处理过程,
Figure BDA00020673126100001112
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2分别表示O的长度和宽度,并且N1>M1,N2>M2,C表示Y和O的通道数目。
联合训练EP-CNN和GR-CNN,是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U,级联EP-CNN和GR-CNN网络,基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN两个子网络的模型参数结果,继续对级联网络进行训练;
步骤S3依据公式(11)中的损失函数,来联合训练EP-CNN和GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Uk表示EP-CNN输出的Xk的预测边缘图,Ok表示基于输入Yk和Uk,GR-CNN输出的恢复图像,根据公式(10)得
Figure BDA0002067312610000117
Figure BDA0002067312610000118
损失函数
Figure BDA0002067312610000119
为:
Figure BDA00020673126100001110
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,
Figure BDA00020673126100001115
和ψ分别表示EP-CNN和GR-CNN的参数向量,
Figure BDA00020673126100001113
表示梯度算子。
如图4所示,所述的EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构,该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成,每一层都使用64个大小为6×6的卷积核,其后都跟着批标准化层(BatchNormalization)和修正线性单元层(Rectified Linear Unit,ReLU),所述反卷积层的步长均为2,卷积层的步长为1。
如图5所示,所述的EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构,该网络结构包括16个卷积层,每个卷积层使用64个大小为3×3的卷积核,除了最后一个卷积层以外,所有的卷积层后面都跟着BatchNormalization层和ReLU层,中间10个卷积层通过5个残差单元(Residualblock)来实现,在进入残差单元前使用一个步长为2的卷积层,在残差单元之后使用一个步长为2的反卷积层,其他卷积层的步长均为1。
步骤S1~S3都由ADAM优化算法来进行训练,批处理大小(Batchsize)固定为4。当分别训练EP-CNN和GR-CNN的时候,初始的学习率设置为0.01。当联合两个网络进行调整时,初始的学习率设置为0.001。每完成10次迭代学习率就乘以0.1。公式(5、9、11)的权重分别设置为α=0.5,β=2,γ=2.5。
在Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and TextImages”中提出了一个使用生成对抗网络框架对低分辨率和模糊混合退化的文本和人脸图像进行恢复的方法,称为SCGAN,是现有性能最佳的方法。在Xinyi Zhang等人的“GatedFusion Network for Joint ImageDeblurring and Super-Resolution”中提出了一个高效的端到端网络来从低分辨率并且模糊的图像中恢复出高分辨率并且清晰的图像的方法,称为GFN。
本实施例使用了三种衡量图像恢复方法的客观标准,分别为:峰值信噪比(PeakSignal to Noise Ratio,PSNR),结构相似性(Structural Similarity,SSIM)和光学字符识别(Optical Character Recognition,OCR)准确率。
1.文档图像数据集实例:在Xiangyu Xu等人提出的背景单一的文档图像数据集上,GFN方法在测试集上的PSNR结果为16.57dB,SSIM结果为0.8078,OCR准确率为80.69%;SCGAN方法在测试集上的PSNR结果为20.65dB,SSIM结果为0.9069,OCR准确率为90.13%;本发明在测试集上的PSNR结果为22.15dB,SSIM结果为0.9331,OCR准确率为97.98%。可以看出,本发明在很大程度上优于其他方法,这说明了本发明在同时对文档图像进行去模糊和超分辨率处理方面的有效性。图6a是一张低分辨率并且模糊的混合退化文档图像,使用GFN、SCGAN和本发明分别对图6a的混合退化文档图像进行恢复,GFN方法的视觉效果图见图6b,SCGAN方法的视觉效果图见图6c,本发明的视觉效果图见图6d,图6e是混合退化文档图像图6a对应的真实标签文本图像。GFN方法的性能并不令人满意,这是可以预期的,因为它是针对一般图像来设计的。专门为文本图像设计的SCGAN方法所恢复的文本内容容易被棋盘效果所影响,因此导致其的视觉效果较差。显然,本发明所输出的图像具有更好的视觉质量,能够恢复更多细节。
2.复杂文本图像数据集实例:在本发明提出的复杂文本图像数据集上,本发明基于该训练数据集,重新调整了SCGAN和GFN的网络模型。在测试时,测试集中的1138张图片被裁剪成200×200的图像块以进行评估。采用PSNR和SSIM的结果作为评估标准,GFN方法在测试集上的PSNR结果为23.52dB,SSIM结果为0.7867;SCGAN方法在测试集上的PSNR结果为21.34dB,SSIM结果为0.7560;本发明在测试集上的PSNR结果为26.64dB,SSIM结果为0.8700。可以看出,在包含复杂背景的文本图像数据集上,本发明也是在很大程度上优于其他两种方法。图7a是一张低分辨率并且模糊的混合退化复杂文本图像,使用GFN、SCGAN和本发明分别对图7a的混合退化复杂文本图像进行恢复,GFN方法的视觉效果图见图7b,SCGAN方法的视觉效果图见图7c,本发明的视觉效果图见图7d,图7e是混合退化复杂文本图像图7a对应的真实标签文本图像;显然,本发明所输出的图像具有更好的视觉质量,能够恢复更多细节。
3.真实文本图像实例:在真实的图像上也分别测试了上述三个方法。图8a是一张真实退化的文本图像,使用GFN、SCGAN和本发明分别对图8a的真实退化文本图像进行恢复,GFN方法的视觉效果图见图8b,SCGAN方法的视觉效果图见图8c,本发明的视觉效果图见图8d。可以看出,本发明对比其他方法产生了更好的视觉效果和更加锐利的特征。
引入边缘引导机制是本发明的关键。为了展示这种机制的有效性,在本发明中删除了EP-CNN,然后重新训练了该网络。在文档图像数据集上,该网络的PSNR结果下降了2.4dB,SSIM结果下降了0.05。以上结果充分地说明了边缘引导机制的有效性。
上述实例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围。

Claims (4)

1.一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,所述方法包括以下步骤:
S1、单独训练边缘预测子网络EP-CNN,先将输入混合退化文本图像输入到EP-CNN,计算其对应的边缘图,然后将混合退化文本图像及其边缘图输入EP-CNN的上采样处理模块,上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,最后输出真实标签文本图像的预测边缘图;所述真实标签文本图像指的是高分辨率并且清晰的目标文本图像;所述的边缘预测子网络EP-CNN表示为
Figure FDA0003844471250000011
其中,f表示EP-CNN的过程,
Figure FDA0003844471250000012
表示EP-CNN的参数向量,
Figure FDA0003844471250000013
表示输入的混合退化的文本图像,
Figure FDA0003844471250000014
表示输出的真实标签文本图像的预测边缘图,→表示EP-CNN从输入到输出的处理过程,
Figure FDA0003844471250000015
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示U的长度和宽度,并且N1>M1,N2>M2,C表示Y的通道数目,当Y为灰度图像时,C=1;当Y为彩色图像时,C=3;
所述的单独训练边缘预测子网络EP-CNN具体包括以下步骤:
S11、在EP-CNN中,输入混合退化文本图像Y,其边缘图E通过公式(4)进行计算,
Figure FDA0003844471250000016
其中,E(x,y)表示边缘图E在二维空间点(x,y)处的像素值,C表示Y的通道数目,
Figure FDA0003844471250000017
表示点(x,y)的空间邻域,
Figure FDA0003844471250000018
表示包含在点
Figure FDA0003844471250000019
空间邻域内的所有点,Y(x,y,c)表示Y在三维空间点(x,y,c)处的像素值,同理,Y(x0,y0,c)表示Y在三维空间点(x0,y0,c)处的像素值;
S12、将Y及其通过公式(4)计算所得的边缘图,叠成一个C+1通道的张量,输入到EP-CNN的上采样处理模块中,上采样处理模块如下:
Figure FDA00038444712500000110
其中,→表示EP-CNN上采样处理模块从输入到输出的处理过程,
Figure FDA00038444712500000111
表示图像的空间维度,M1、M2和C+1分别表示上采样处理模块输入张量的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2
S13、将上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,预测处理模块如下:
Figure FDA00038444712500000112
其中,→表示EP-CNN预测处理模块从输入到输出的处理过程,
Figure FDA0003844471250000021
表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,D表示输入张量的通道数目,用U来表示预测处理模块输出的真实标签文本图像的预测边缘图;
步骤S11~步骤S13描述单独训练EP-CNN的详细过程步骤,依据公式(7)中的损失函数来单独训练EP-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像,Sk表示Xk通过公式(4)计算所得到的边缘图,Uk表示EP-CNN输出的Xk的预测边缘图,根据公式(1)得
Figure FDA0003844471250000022
损失函数
Figure FDA0003844471250000023
为:
Figure FDA0003844471250000024
其中,f表示EP-CNN的过程,
Figure FDA0003844471250000025
表示EP-CNN的参数向量,
Figure FDA0003844471250000026
表示梯度算子,损失函数
Figure FDA0003844471250000027
的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出;
S2、单独训练边缘引导恢复子网络GR-CNN,首先将混合退化的文本图像输入到GR-CNN的上采样处理模块,得到与真实标签文本图像尺寸大小相同的图像,然后通过计算得到真实标签文本图像所对应的边缘图,再将上采样处理模块的输出与真实标签文本图像的边缘图输入到GR-CNN的预测处理模块,GR-CNN最终的输出是恢复的文本图像;所述的边缘引导恢复子网络GR-CNN表示为
g((Y,S)|ψ):(Y,S)→OS, (2)
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,
Figure FDA0003844471250000028
表示输入的混合退化的文本图像,
Figure FDA0003844471250000029
表示Y所对应的真实标签文本图像通过公式(4)计算所得到的边缘图,
Figure FDA00038444712500000210
表示基于输入Y和S,GR-CNN输出的恢复图像,→表示GR-CNN从输入到输出的处理过程,
Figure FDA00038444712500000211
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示S和OS的长度和宽度,并且N1>M1,N2>M2,C表示Y和OS的通道数目;
所述的单独训练边缘引导恢复子网络GR-CNN具体包括以下步骤:
S21、在GR-CNN中,输入混合退化的文本图像Y到GR-CNN的上采样处理模块中,上采样处理模块如下:
Figure FDA00038444712500000212
其中,→表示GR-CNN上采样处理模块从输入到输出的处理过程,
Figure FDA00038444712500000213
表示图像的空间维度,M1、M2和C分别表示上采样处理模块输入图像Y的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2
S22、在GR-CNN中,输入真实标签文本图像,根据公式(4)计算得到其对应的边缘图S,将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量,输入到GR-CNN的预测处理模块中,预测处理模块如下:
Figure FDA0003844471250000031
其中,→表示GR-CNN预测处理模块从输入到输出的处理过程,
Figure FDA0003844471250000032
表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,D+1表示输入张量的通道数目,D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,C表示输出张量的通道数目;
步骤S21~步骤S22描述单独训练GR-CNN的详细过程步骤,依据公式(10)中的损失函数来单独训练GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,Sk表示Xk通过公式(4)计算所得到的边缘图,
Figure FDA0003844471250000033
表示基于输入Yk和Sk,GR-CNN输出的恢复图像,根据公式(2)得
Figure FDA0003844471250000034
损失函数lg(ψ)为:
Figure FDA0003844471250000035
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,
Figure FDA0003844471250000036
表示梯度算子,损失函数
Figure FDA0003844471250000037
的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出;
S3、联合训练EP-CNN和GR-CNN,得到级联网络,继续对级联网络进行训练,提高图像的恢复效果,所述的联合训练EP-CNN和GR-CNN表示为:
Figure FDA0003844471250000038
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,
Figure FDA0003844471250000039
和ψ分别表示EP-CNN和GR-CNN的参数向量,
Figure FDA00038444712500000310
表示输入的混合退化的文本图像,
Figure FDA00038444712500000311
表示基于输入Y和EP-CNN输出的预测边缘图,GR-CNN输出的恢复图像,→表示联合训练EP-CNN和GR-CNN从输入到输出的处理过程,
Figure FDA00038444712500000312
表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2分别表示O的长度和宽度,并且N1>M1,N2>M2,C表示Y和O的通道数目;
所述的联合训练边缘预测子网络EP-CNN和边缘引导恢复子网络GR-CNN,是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U,级联EP-CNN和GR-CNN网络,基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN 两个子网络的模型参数结果,继续对级联网络进行训练;
依据公式(11)中的损失函数,来联合训练EP-CNN和GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,Uk表示EP-CNN输出的Xk的预测边缘图,Ok表示基于输入Yk和Uk,GR-CNN输出的恢复图像,根据公式(3)得
Figure FDA0003844471250000041
损失函数
Figure FDA0003844471250000042
为:
Figure FDA0003844471250000043
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,
Figure FDA0003844471250000044
和ψ分别表示EP-CNN和GR-CNN的参数向量,
Figure FDA0003844471250000045
表示梯度算子。
2.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,在进行步骤S1之前,先建立文本图像数据集,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片。
3.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构,该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成,每一层都使用64个大小为6×6的卷积核,其后都跟着批标准化层(Batch Normalization)和修正线性单元层(Rectified Linear Unit,ReLU),所述反卷积层的步长均为2,卷积层的步长为1。
4.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构,该网络结构包括16个卷积层,每个卷积层使用64个大小为3×3的卷积核,除了最后一个卷积层以外,所有的卷积层后面都跟着Batch Normalization层和ReLU层,中间10个卷积层通过5个残差单元(Residual block)来实现,在进入残差单元前使用一个步长为2的卷积层,在残差单元之后使用一个步长为2的反卷积层,其他卷积层的步长均为1。
CN201910425310.0A 2019-05-21 2019-05-21 一种基于边缘引导的混合退化文本图像恢复方法 Active CN110211064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910425310.0A CN110211064B (zh) 2019-05-21 2019-05-21 一种基于边缘引导的混合退化文本图像恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910425310.0A CN110211064B (zh) 2019-05-21 2019-05-21 一种基于边缘引导的混合退化文本图像恢复方法

Publications (2)

Publication Number Publication Date
CN110211064A CN110211064A (zh) 2019-09-06
CN110211064B true CN110211064B (zh) 2022-11-18

Family

ID=67787945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910425310.0A Active CN110211064B (zh) 2019-05-21 2019-05-21 一种基于边缘引导的混合退化文本图像恢复方法

Country Status (1)

Country Link
CN (1) CN110211064B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909865B (zh) * 2019-11-18 2022-08-30 福州大学 边缘计算中基于分层张量分解的联邦学习方法
CN111105375B (zh) * 2019-12-17 2023-08-22 北京金山云网络技术有限公司 图像生成方法及其模型训练方法、装置及电子设备
CN112001431B (zh) * 2020-08-11 2022-06-28 天津大学 一种基于梳状卷积的高效图像分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426188A (zh) * 2013-08-08 2013-12-04 华南理工大学 一种纹理描述方法
CN106408039A (zh) * 2016-09-14 2017-02-15 华南理工大学 一种基于形变方法进行数据扩展的脱机手写汉字识别方法
WO2019001094A1 (zh) * 2017-06-27 2019-01-03 杭州海康威视数字技术股份有限公司 一种视频编码方法、解码方法、装置及电子设备
CN109345449A (zh) * 2018-07-17 2019-02-15 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426188A (zh) * 2013-08-08 2013-12-04 华南理工大学 一种纹理描述方法
CN106408039A (zh) * 2016-09-14 2017-02-15 华南理工大学 一种基于形变方法进行数据扩展的脱机手写汉字识别方法
WO2019001094A1 (zh) * 2017-06-27 2019-01-03 杭州海康威视数字技术股份有限公司 一种视频编码方法、解码方法、装置及电子设备
CN109345449A (zh) * 2018-07-17 2019-02-15 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Text Detection and Recognition from Scene Images using MSER and CNN;S. Choudhary, N. K. Singh and S. Chichadwani;《2018 Second International Conference on Advances in Electronics, Computers and Communications (ICAECC)》;20181204;全文 *
Video text detection with text edges and convolutional neural network;P. Hu, W. Wang and K. Lu;《2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR)》;20160609;全文 *
基于边缘检测的卷积核数量确定方法;文元美等;《计算机应用研究》;20171115(第11期);全文 *

Also Published As

Publication number Publication date
CN110211064A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
Bashir et al. A comprehensive review of deep learning-based single image super-resolution
Li et al. Survey of single image super‐resolution reconstruction
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN112465828B (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN110211064B (zh) 一种基于边缘引导的混合退化文本图像恢复方法
Wang et al. Haze concentration adaptive network for image dehazing
KR102061923B1 (ko) 입력 이미지의 계층적 초해상을 수행하는 방법 및 장치
Zheng et al. Residual multiscale based single image deraining
CN109523470B (zh) 一种深度图像超分辨率重建方法及系统
Wu et al. Dynamic attention network for semantic segmentation
Cao et al. New architecture of deep recursive convolution networks for super-resolution
Kang et al. Multilayer degradation representation-guided blind super-resolution for remote sensing images
CN114494015A (zh) 基于盲超分辨率网络的图像重建方法
Tudavekar et al. Dual‐tree complex wavelet transform and super‐resolution based video inpainting application to object removal and error concealment
Li et al. Image reflection removal using end‐to‐end convolutional neural network
Zhao et al. SSIR: Spatial shuffle multi-head self-attention for single image super-resolution
Tomar et al. Attentive exfeat based deep generative adversarial network for noise robust face super-resolution
CN110047029A (zh) 一种结合多层差扩展具有对比度增强的可逆信息隐藏方法及装置
CN112598604A (zh) 一种盲脸复原方法及系统
Singh et al. StegGAN: hiding image within image using conditional generative adversarial networks
Schirrmacher et al. SR 2: Super-resolution with structure-aware reconstruction
Liu et al. Gradient prior dilated convolution network for remote sensing image super-resolution
Yang et al. Deep convolutional grid warping network for joint depth map upsampling
Huang et al. Dual-branche attention network for super-resolution of remote sensing images
Seke et al. Multi‐frame super‐resolution algorithm using common vector approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant