CN110211064B - 一种基于边缘引导的混合退化文本图像恢复方法 - Google Patents
一种基于边缘引导的混合退化文本图像恢复方法 Download PDFInfo
- Publication number
- CN110211064B CN110211064B CN201910425310.0A CN201910425310A CN110211064B CN 110211064 B CN110211064 B CN 110211064B CN 201910425310 A CN201910425310 A CN 201910425310A CN 110211064 B CN110211064 B CN 110211064B
- Authority
- CN
- China
- Prior art keywords
- cnn
- text image
- image
- processing module
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000011084 recovery Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 105
- 238000012549 training Methods 0.000 claims abstract description 80
- 238000005070 sampling Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 229910052717 sulfur Inorganic materials 0.000 claims description 16
- 238000006731 degradation reaction Methods 0.000 claims description 15
- 230000015556 catabolic process Effects 0.000 claims description 14
- 229910052760 oxygen Inorganic materials 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 30
- 238000013527 convolutional neural network Methods 0.000 description 84
- 238000010586 diagram Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000003370 grooming effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于边缘引导的混合退化文本图像恢复方法,包括以下步骤:S1、单独训练EP‑CNN,计算混合退化文本图像对应的边缘图,将混合退化文本图像及其边缘图输入EP‑CNN的上采样处理模块,利用EP‑CNN的预测处理模块的输入,输出真实标签文本图像的预测边缘图;S2、单独训练GR‑CNN,将混合退化的文本图像输入到上采样处理模块,然后计算得到真实标签文本图像所对应的边缘图,通过预测处理模块输出是恢复的文本图像;S3、联合训练EP‑CNN和GR‑CNN,得到级联网络,继续对级联网络进行训练。本发明的优点是高效简便,能够显著地提高退化文本图像的视觉质量和可读性,并且优于现有的其他先进方法。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及了一种基于边缘引导的混合退化文本图像恢复方法。
背景技术
文本是单词、句子、段落和书籍的组成部分。文本图像指的是以文本为主要内容的图像。这类图像是日常生活中常见的一种图像类型,例如文档图像、扫描卡片、课堂笔记图片等等。此外,图像中的文本内容为各种视觉应用提供了丰富而且精确的信息,例如图像搜索、目标地理定位、机器人导航和人机交互等等。因此,在文本提取、定位和识别方面已经积累了大量的工作。然而在实验中,相机拍摄或者从大尺寸图像中截取的文本图像的视觉质量往往会受到许多因素的影响,如低分辨率、运动/失焦模糊、低信噪比等。这种退化可能会显著降低文本图像的可读性。因此,一种能够显著提高退化文本图像视觉质量的文本图像恢复方法,在日常生活以及涉及文本处理的视觉应用中都是十分必要的。现有的文本图像恢复方法大多集中于文本图像去模糊或者超分辨率。然而,低分辨率和模糊往往同时发生在真实场景中,特别是当文本图像是从大尺寸图像中截取的时候。
y=DBx+n,(1)
在实际应用中,模糊算子B通常是未知的,准确估计B是一个非常具有挑战性的任务。此外,一个实际的下采样算子通常涉及到一个抗锯齿处理过程,其平滑核也是未知的。一般情况下,没有额外的输入,很难可靠地估计DB。
文本图像的去模糊可以使用一般的图像去模糊方法来实现,这些方法通常依赖于对图像梯度的一些统计先验。然而这些基于一般自然图像的先验对于文本图像来说是不准确的。例如,文本图像不服从图像梯度的重尾分布,而图像梯度的重尾分布常常应用于图像去模糊技术中。同样的,文本图像的超分辨率也可以通过调用一般的图像超分辨率方法来实现。但由于文本图像的特殊性,针对文本图像设计的方法比一般方法具有更好的性能。现有的文本图像超分辨率方法大多是基于范例的方法,它们使用来自高分辨率和低分辨率图像的样本块来指导恢复过程。基于范例的方法严重依赖于样本块的数据集,通常只适用于文档图像。有研究发现,在对低分辨率和模糊的图像进行恢复的时候,连续应用去模糊和超分辨率技术往往不能取得令人满意的效果。
发明内容
针对文本图像的特点,本发明将边缘引导机制引入卷积神经网络,旨在恢复低分辨率和模糊的退化文本图像,从而大大提高其可读性,可以应用于带有文字处理模块的移动设备和各种视觉任务中。边缘引导机制的引入是由于文本图像的边缘图与其本身具有很强的相关性。事实上,在识别方面,其边缘图几乎与文本图像本身是一样的。换句话说,在预测的文本图像边缘图的引导下,即使不知道退化过程,也可以直接依据退化后的图像恢复出高质量的文本图像。从某种意义上说,边缘图的引导使得退化图像与恢复图像之间的映射更加可能,也更容易学习。
在卷积神经网络中,本发明使用了一对对偶神经网络来实现边缘引导机制。简单地说,一个卷积神经网络经过训练,用于预测真实标签文本图像的边缘图;另一个卷积神经网络经过训练,在预测边缘图的帮助下来恢复退化的文本图像。其中有一个问题是边缘图能否被准确预测。由于文本图像在边缘上有其特殊的特征,因此边缘预测的任务相比自然图像要容易得多。例如,在文本图像中,大部分边缘具有足够大的尺寸,并且这些边缘的方向是多样的,这是已知的使得图像去模糊更加容易的配置。
本发明所提出的卷积神经网络,包含一对对偶神经网络:一个是边缘预测子网络(Edgeprediction Convolutional Neural Network,EP-CNN),用于预测真实标签文本图像的边缘图;一个是边缘引导恢复子网络(Edge-guided recovery Convolutional NeuralNetwork,GR-CNN),以退化的文本图像和预测的边缘图作为输入,用来恢复未知的清晰图像。为了使得两个子网络能够更好地发挥各自的作用,本发明采用首先分别训练两个子网络,然后再联合训练的方式。
为了能够在更加广泛的文本图像上评估性能,本发明广泛收集高分辨率并且清晰的复杂文本图像,经过数据清洗和整理,建立了一个复杂文本图像数据集,用于神经网络的训练,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片;用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后,得到的低分辨率并且模糊的混合退化的文本图像。
本发明至少通过如下技术方案之一实现。
一种基于边缘引导的混合退化文本图像恢复方法,包括以下步骤:
S1、单独训练边缘预测子网络(Edge prediction Convolutional NeuralNetwork,EP-CNN),先将低分辨率并且模糊的混合退化文本图像输入到EP-CNN,计算其对应的边缘图,然后将混合退化的文本图像及其边缘图输入EP-CNN的上采样处理模块,上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,最后输出真实标签文本图像的预测边缘图;所述真实标签文本图像指的是高分辨率并且清晰的目标文本图像;
S2、单独训练边缘引导恢复子网络(Edge-guided recovery ConvolutionalNeural Network,GR-CNN),首先将混合退化的文本图像输入到GR-CNN的上采样处理模块,得到与真实标签文本图像尺寸大小相同的图像,然后通过计算得到真实标签文本图像所对应的边缘图,再将经过上采样处理模块得到的输出与真实标签文本图像的边缘图输入到GR-CNN的预测处理模块,GR-CNN最终的输出是恢复的文本图像;
S3、联合训练EP-CNN和GR-CNN,得到级联网络,继续对级联网络进行训练,提高图像的恢复效果。
进一步地,在进行步骤S1之前,先建立文本图像数据集,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片;用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后,得到的低分辨率并且模糊的混合退化的文本图像。
进一步地,步骤S1所述边缘预测子网络(EP-CNN)表示为
其中,f表示EP-CNN的过程,表示EP-CNN的参数向量,表示输入的混合退化的文本图像,表示输出的真实标签文本图像的预测边缘图,→表示EP-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示U的长度和宽度,并且N1>M1,N2>M2,C表示Y的通道数目,当Y为灰度图像时,C=1,当Y为彩色图像时,C=3。
进一步地,步骤S2所述边缘引导恢复子网络(GR-CNN)表示为
g((Y,S)|ψ):(Y,S)→Os,(3)
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,表示输入的混合退化的文本图像,表示Y所对应的真实标签文本图像通过公式(5)计算所得到的边缘图,表示基于输入Y和S,GR-CNN输出的恢复图像,→表示GR-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示S和Os的长度和宽度,并且N1>M1,N2>M2,C表示Y和Os的通道数目。
进一步地,步骤S3所述的联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN)表示为:
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,和ψ分别表示EP-CNN和GR-CNN的参数向量,表示输入的混合退化的文本图像,表示基于输入Y和EP-CNN输出的预测边缘图,GR-CNN输出的恢复图像,→表示联合训练EP-CNN和GR-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2分别表示O的长度和宽度,并且N1>M1,N2>M2,C表示Y和O的通道数目。
进一步地,步骤S1所述的单独训练边缘预测子网络(EP-CNN)具体包括以下步骤:
S11、在EP-CNN中,输入混合退化的文本图像Y,其边缘图E通过公式(5)进行计算,
其中,E(x,y)表示边缘图E在二维空间点(x,y)处的像素值,C表示Y的通道数目,表示点(x,y)的空间邻域,表示包含在点空间邻域内的所有点,Y(x,y,c)表示Y在三维空间点(x,y,c)处的像素值,同理,Y(x0,y0,c)表示Y在三维空间点(x0,y0,c)处的像素值;
S12、将Y和其通过公式(5)计算所得的边缘图,叠成一个(C+1)通道的张量,输入到EP-CNN的上采样处理模块中,上采样处理模块如下:
其中,→表示EP-CNN上采样处理模块从输入到输出的处理过程,表示图像的空间维度,M1、M2和(C+1)分别表示输入张量的长度、宽度和通道数目,N1、N2和D分别表示上采样处理模块输出张量的长度、宽度和通道数目,D是EP-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2;
S13、将上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,预测处理模块如下:
其中,→表示EP-CNN预测处理模块从输入到输出的处理过程,表示图像的空间维度,N1和N2分别表示预测处理模块输入和输出张量的长度和宽度,D表示输入张量的通道数目,用U来表示预测处理模块输出的真实标签文本图像的预测边缘图;
步骤S11~步骤S13描述单独训练EP-CNN的详细过程步骤,依据公式(8)中的损失函数来单独训练EP-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像,Sk表示Xk通过公式(5)计算所得到的边缘图,Sk表示的是第k张真实标签文本图像的边缘图,Uk表示EP-CNN输出的Xk的预测边缘图,根据公式(2)得损失函数为:
进一步地,步骤S2所述的单独训练边缘引导恢复子网络(GR-CNN)具体包括以下步骤:
S21、在GR-CNN中,输入混合退化的文本图像Y到GR-CNN的上采样处理模块中,上采样处理模块如下:
其中,→表示GR-CNN上采样处理模块从输入到输出的处理过程,表示图像的空间维度,M1、M2和C分别表示输入图像Y的长度、宽度和通道数目,N1、N2和D分别表示上采样处理模块输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2;
S22、在GR-CNN中,输入真实标签文本图像,根据公式(5)计算得到其对应的边缘图S,将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量,输入到GR-CNN的预测处理模块中,预测处理模块如下:
其中,→表示GR-CNN预测处理模块从输入到输出的处理过程,表示图像的空间维度,N1和N2分别表示输入和输出张量的长度和宽度,(D+1)表示输入张量的通道数目,D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,C表示输出张量的通道数目;
步骤S21~步骤S22描述单独训练GR-CNN的详细过程步骤,依据公式(11)中的损失函数来单独训练GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Sk表示Xk通过公式(5)计算所得到的边缘图,表示基于输入Yk和Sk,GR-CNN输出的恢复图像,根据公式(3)得损失函数为:
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,表示梯度算子,损失函数的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出。
进一步地,步骤S3所述的联合训练具体如下:
步骤S3所述的联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN),是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U,级联EP-CNN和GR-CNN网络,基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN两个子网络的模型参数结果,继续对级联网络进行训练;
依据公式(12)中的损失函数,来联合训练EP-CNN和GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Uk表示EP-CNN输出的Xk的预测边缘图,Ok表示基于输入Yk和Uk,GR-CNN输出的恢复图像,根据公式(4)得损失函数为:
进一步地,EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构,该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成,每一层都使用64个大小为6×6的卷积核,其后都跟着批标准化层(BatchNormalization)和修正线性单元层(Rectified Linear Unit,ReLU),所述反卷积层的步长均为2,卷积层的步长为1。
进一步地,EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构,包括16个卷积层,每个卷积层使用64个大小为3×3的卷积核,除了最后一个卷积层以外,所有的卷积层后面都跟着BatchNormalization层和ReLU层,中间10个卷积层通过5个残差单元(Residualblock)来实现,在进入残差单元前使用一个步长为2的卷积层,在残差单元之后使用一个步长为2的反卷积层,其他卷积层的步长均为1。
本发明与现有技术相比,具有以下优点和有益效果:
高质量的文本图像数据集能够极大地提高用于文本图像恢复的深度学习方法的学习能力。目前,这样的文本图像数据集很少,可用的数据集仅限于文档图像。本发明提供了一个大型的基准数据集,其中文本图像的类型非常多样化,这对文本图像处理相关的社区研究工作非常有益。
在已有的文档图像数据集以及本发明提出的复杂文本图像数据集上的实验结果均表明,本发明可以大大提高低分辨率并且模糊的混合退化文本图像的视觉质量,无论是在定量度量方面还是视觉质量方面,都优于现有的最先进的方法。
附图说明
图1是本实施例一种基于边缘引导的混合退化文本图像恢复方法的流程图;
图2是本实施例单独训练EP-CNN的训练流程图;
图3是本实施例单独训练GR-CNN的训练流程图;
图4是本实施例EP-CNN和GR-CNN所采用的上采样处理模块的网络架构;
图5是本实施例EP-CNN和GR-CNN所采用的预测处理模块的网络架构;
图6a是基于文档图像数据集实例,输入的混合退化文档图像;
图6b是基于文档图像数据集实例,使用GFN方法(Gated Fusion Network forJoint ImageDeblurring and Super-Resolution)产生的视觉效果图;
图6c是基于文档图像数据集实例,使用SCGAN方法(Learning to Super-ResolveBlurry Face and Text Images)产生的视觉效果图;
图6d是基于文档图像数据集实例,使用本发明的产生视觉效果图;
图6e是基于文档图像数据集实例,混合退化文档图像图6a对应的真实标签文本图像;
图7a是基于复杂文本图像数据集实例,输入的混合退化复杂文本图像;
图7b是基于复杂文本图像数据集实例,使用GFN方法产生的视觉效果图;
图7c是基于复杂文本图像数据集实例,使用SCGAN方法产生的视觉效果图;
图7d是基于复杂文本图像数据集实例,使用本发明产生的视觉效果图;
图7e是基于复杂文本图像数据集实例,混合退化复杂文本图像图7a对应的真实标签文本图像;
图8a是基于真实文本图像实例,输入的真实退化文本图像;
图8b是基于真实文本图像实例,使用GFN方法产生的视觉效果图;
图8c是基于真实文本图像实例,使用SCGAN方法产生的视觉效果图;
图8d是基于真实文本图像实例,使用本发明产生的视觉效果图。
具体实施方式
下面结合实施例子以及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
目前可以用于文本图像恢复训练的可用数据集非常少。在Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and Text Images”中提出了一个可用的文档图像数据集。在这个数据集中,训练集包含100多万个16×16的低分辨率模糊图像块,这些图像块是从等人的“Convolutional Neural Networks for DirectTextDeblurring”中提出的数据集裁剪出来的64×64的模糊图像块经过下采样因子为4的双三次插值而生成的。训练数据中存在两种模糊类型:(1)随机游走产生的运动模糊,模糊核尺寸在[5,21]区间内采样;(2)由抗锯齿圆盘实现的失焦模糊,半径从[0,4]区间内采样。然后添加从[0,7/255]区间内采样的零均值独立同分布高斯噪声。对于测试集,通过上述两种类型的模糊和下采样操作,共产生了100张低分辨率的模糊文本图像。但是上述数据集中的图像基本都是背景单一的文档图像。
为了能够在更加广泛的文本图像上评估性能,在本实施例中,广泛收集高分辨率并且清晰的复杂文本图像,经过数据清洗和整理,建立了一个复杂文本图像数据集,用于神经网络训练,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片。同样地,复杂文本图像数据集使用等人的“Convolutional Neural Networksfor DirectText Deblurring”中提出的两种模糊类型和下采样因子为4的双三次插值来生成混合退化文本图像。复杂文本图像数据集被划分为包含100多万个50×50的混合退化文本图像块的训练集和包含1138张图片的测试集。
本实施例中包括两个不同的文本图像数据集,一个是Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and Text Images”中提出的文档图像数据集,一个是本发明提出的复杂文本图像数据集。
如图1所示的一种基于边缘引导的混合退化文本图像恢复方法来恢复混合退化文本图像,具体包括以下步骤:
S1、边缘预测子网络(EP-CNN)表示为
其中,f表示EP-CNN的过程,表示EP-CNN的参数向量,表示输入的混合退化的文本图像,表示输出的真实标签文本图像的预测边缘图,→表示EP-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示U的长度和宽度,并且N1>M1,N2>M2,C表示Y的通道数目,当Y为灰度图像时,C=1,当Y为彩色图像时,C=3。
如图2所示,单独训练EP-CNN具体步骤如下:
S11、在EP-CNN中,输入混合退化的文本图像Y,其边缘图E通过公式(2)进行计算,
其中,E(x,y)表示边缘图E在二维空间点(x,y)处的像素值,C表示Y的通道数目,表示点(x,y)的空间邻域,表示包含在点空间邻域内的所有点,Y(x,y,c)表示Y在三维空间点(x,y,c)处的像素值,同理,Y(x0,y0,c)表示Y在三维空间点(x0,y0,c)处的像素值;
S12、将Y和其通过公式(2)计算所得的边缘图,叠成一个(C+1)通道的张量,输入到EP-CNN的上采样处理模块中,上采样处理模块如下:
其中,→表示EP-CNN上采样处理模块从输入到输出的处理过程,表示图像的空间维度,M1、M2和(C+1)分别表示上采样处理模块输入张量的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2;
S13、将上采样处理模块的输出张量作为到EP-CNN的预测处理模块的输入,预测处理模块如下:
其中,→表示EP-CNN预测处理模块从输入到输出的处理过程,表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,D表示输入张量的通道数目,用U来表示预测处理模块输出的真实标签文本图像的预测边缘图;
步骤S11~步骤S13描述了单独训练EP-CNN的详细过程步骤,依据公式(5)中的损失函数来单独训练EP-CNN。使用{(Xk,Yk),1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像,Sk表示Xk通过公式(2)计算所得到的边缘图,Uk表示EP-CNN输出的Xk的预测边缘图。根据公式(1)得损失函数为:
S2、边缘引导恢复子网络(GR-CNN)表示为
g((Y,S)|ψ):(Y,S)→Os,(6)
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,表示输入的混合退化的文本图像,表示Y所对应的真实标签文本图像通过公式(2)计算所得到的边缘图,表示基于输入Y和S,GR-CNN输出的恢复图像,→表示GR-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示S和OS的长度和宽度,并且N1>M1,N2>M2,C表示Y和Os的通道数目。
如图3所示,单独训练GR-CNN具体步骤如下:
S21、在GR-CNN中,输入混合退化的文本图像Y到GR-CNN的上采样处理模块中,上采样处理模块如下:
其中,→表示GR-CNN上采样处理模块从输入到输出的处理过程,表示图像的空间维度,M1、M2和C分别表示上采样处理模块输入图像Y的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2;
S22、在GR-CNN中,输入真实标签文本图像,根据公式(2)计算得到其对应的边缘图S,将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量,输入到GR-CNN的预测处理模块中,预测处理模块如下:
其中,→表示GR-CNN预测处理模块从输入到输出的处理过程,表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,(D+1)表示输入张量的通道数目,D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,C表示输出张量的通道数目;
步骤S21~步骤S22描述单独训练GR-CNN的详细过程步骤,依据公式(9)中的损失函数来单独训练GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Sk表示Xk通过公式(2)计算所得到的边缘图,表示基于输入Yk和Sk,GR-CNN输出的恢复图像,根据公式(6)得损失函数为:
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,表示梯度算子,损失函数的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出。
S3、联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN)表示为:
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,和ψ分别表示EP-CNN和GR-CNN的参数向量,表示输入的混合退化的文本图像,表示基于输入Y和EP-CNN输出的预测边缘图,GR-CNN输出的恢复图像,→表示联合训练EP-CNN和GR-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2分别表示O的长度和宽度,并且N1>M1,N2>M2,C表示Y和O的通道数目。
联合训练EP-CNN和GR-CNN,是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U,级联EP-CNN和GR-CNN网络,基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN两个子网络的模型参数结果,继续对级联网络进行训练;
步骤S3依据公式(11)中的损失函数,来联合训练EP-CNN和GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的混合退化的文本图像,Uk表示EP-CNN输出的Xk的预测边缘图,Ok表示基于输入Yk和Uk,GR-CNN输出的恢复图像,根据公式(10)得 损失函数为:
如图4所示,所述的EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构,该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成,每一层都使用64个大小为6×6的卷积核,其后都跟着批标准化层(BatchNormalization)和修正线性单元层(Rectified Linear Unit,ReLU),所述反卷积层的步长均为2,卷积层的步长为1。
如图5所示,所述的EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构,该网络结构包括16个卷积层,每个卷积层使用64个大小为3×3的卷积核,除了最后一个卷积层以外,所有的卷积层后面都跟着BatchNormalization层和ReLU层,中间10个卷积层通过5个残差单元(Residualblock)来实现,在进入残差单元前使用一个步长为2的卷积层,在残差单元之后使用一个步长为2的反卷积层,其他卷积层的步长均为1。
步骤S1~S3都由ADAM优化算法来进行训练,批处理大小(Batchsize)固定为4。当分别训练EP-CNN和GR-CNN的时候,初始的学习率设置为0.01。当联合两个网络进行调整时,初始的学习率设置为0.001。每完成10次迭代学习率就乘以0.1。公式(5、9、11)的权重分别设置为α=0.5,β=2,γ=2.5。
在Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and TextImages”中提出了一个使用生成对抗网络框架对低分辨率和模糊混合退化的文本和人脸图像进行恢复的方法,称为SCGAN,是现有性能最佳的方法。在Xinyi Zhang等人的“GatedFusion Network for Joint ImageDeblurring and Super-Resolution”中提出了一个高效的端到端网络来从低分辨率并且模糊的图像中恢复出高分辨率并且清晰的图像的方法,称为GFN。
本实施例使用了三种衡量图像恢复方法的客观标准,分别为:峰值信噪比(PeakSignal to Noise Ratio,PSNR),结构相似性(Structural Similarity,SSIM)和光学字符识别(Optical Character Recognition,OCR)准确率。
1.文档图像数据集实例:在Xiangyu Xu等人提出的背景单一的文档图像数据集上,GFN方法在测试集上的PSNR结果为16.57dB,SSIM结果为0.8078,OCR准确率为80.69%;SCGAN方法在测试集上的PSNR结果为20.65dB,SSIM结果为0.9069,OCR准确率为90.13%;本发明在测试集上的PSNR结果为22.15dB,SSIM结果为0.9331,OCR准确率为97.98%。可以看出,本发明在很大程度上优于其他方法,这说明了本发明在同时对文档图像进行去模糊和超分辨率处理方面的有效性。图6a是一张低分辨率并且模糊的混合退化文档图像,使用GFN、SCGAN和本发明分别对图6a的混合退化文档图像进行恢复,GFN方法的视觉效果图见图6b,SCGAN方法的视觉效果图见图6c,本发明的视觉效果图见图6d,图6e是混合退化文档图像图6a对应的真实标签文本图像。GFN方法的性能并不令人满意,这是可以预期的,因为它是针对一般图像来设计的。专门为文本图像设计的SCGAN方法所恢复的文本内容容易被棋盘效果所影响,因此导致其的视觉效果较差。显然,本发明所输出的图像具有更好的视觉质量,能够恢复更多细节。
2.复杂文本图像数据集实例:在本发明提出的复杂文本图像数据集上,本发明基于该训练数据集,重新调整了SCGAN和GFN的网络模型。在测试时,测试集中的1138张图片被裁剪成200×200的图像块以进行评估。采用PSNR和SSIM的结果作为评估标准,GFN方法在测试集上的PSNR结果为23.52dB,SSIM结果为0.7867;SCGAN方法在测试集上的PSNR结果为21.34dB,SSIM结果为0.7560;本发明在测试集上的PSNR结果为26.64dB,SSIM结果为0.8700。可以看出,在包含复杂背景的文本图像数据集上,本发明也是在很大程度上优于其他两种方法。图7a是一张低分辨率并且模糊的混合退化复杂文本图像,使用GFN、SCGAN和本发明分别对图7a的混合退化复杂文本图像进行恢复,GFN方法的视觉效果图见图7b,SCGAN方法的视觉效果图见图7c,本发明的视觉效果图见图7d,图7e是混合退化复杂文本图像图7a对应的真实标签文本图像;显然,本发明所输出的图像具有更好的视觉质量,能够恢复更多细节。
3.真实文本图像实例:在真实的图像上也分别测试了上述三个方法。图8a是一张真实退化的文本图像,使用GFN、SCGAN和本发明分别对图8a的真实退化文本图像进行恢复,GFN方法的视觉效果图见图8b,SCGAN方法的视觉效果图见图8c,本发明的视觉效果图见图8d。可以看出,本发明对比其他方法产生了更好的视觉效果和更加锐利的特征。
引入边缘引导机制是本发明的关键。为了展示这种机制的有效性,在本发明中删除了EP-CNN,然后重新训练了该网络。在文档图像数据集上,该网络的PSNR结果下降了2.4dB,SSIM结果下降了0.05。以上结果充分地说明了边缘引导机制的有效性。
上述实例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围。
Claims (4)
1.一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,所述方法包括以下步骤:
S1、单独训练边缘预测子网络EP-CNN,先将输入混合退化文本图像输入到EP-CNN,计算其对应的边缘图,然后将混合退化文本图像及其边缘图输入EP-CNN的上采样处理模块,上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,最后输出真实标签文本图像的预测边缘图;所述真实标签文本图像指的是高分辨率并且清晰的目标文本图像;所述的边缘预测子网络EP-CNN表示为
其中,f表示EP-CNN的过程,表示EP-CNN的参数向量,表示输入的混合退化的文本图像,表示输出的真实标签文本图像的预测边缘图,→表示EP-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示U的长度和宽度,并且N1>M1,N2>M2,C表示Y的通道数目,当Y为灰度图像时,C=1;当Y为彩色图像时,C=3;
所述的单独训练边缘预测子网络EP-CNN具体包括以下步骤:
S11、在EP-CNN中,输入混合退化文本图像Y,其边缘图E通过公式(4)进行计算,
其中,E(x,y)表示边缘图E在二维空间点(x,y)处的像素值,C表示Y的通道数目,表示点(x,y)的空间邻域,表示包含在点空间邻域内的所有点,Y(x,y,c)表示Y在三维空间点(x,y,c)处的像素值,同理,Y(x0,y0,c)表示Y在三维空间点(x0,y0,c)处的像素值;
S12、将Y及其通过公式(4)计算所得的边缘图,叠成一个C+1通道的张量,输入到EP-CNN的上采样处理模块中,上采样处理模块如下:
其中,→表示EP-CNN上采样处理模块从输入到输出的处理过程,表示图像的空间维度,M1、M2和C+1分别表示上采样处理模块输入张量的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2;
S13、将上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入,预测处理模块如下:
其中,→表示EP-CNN预测处理模块从输入到输出的处理过程,表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,D表示输入张量的通道数目,用U来表示预测处理模块输出的真实标签文本图像的预测边缘图;
步骤S11~步骤S13描述单独训练EP-CNN的详细过程步骤,依据公式(7)中的损失函数来单独训练EP-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,其中,K表示用于训练的文本图像数据集中的图像总数,Xk指代用于训练的图像数据集中的第k张真实标签文本图像,Yk是Xk经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像,Sk表示Xk通过公式(4)计算所得到的边缘图,Uk表示EP-CNN输出的Xk的预测边缘图,根据公式(1)得损失函数为:
S2、单独训练边缘引导恢复子网络GR-CNN,首先将混合退化的文本图像输入到GR-CNN的上采样处理模块,得到与真实标签文本图像尺寸大小相同的图像,然后通过计算得到真实标签文本图像所对应的边缘图,再将上采样处理模块的输出与真实标签文本图像的边缘图输入到GR-CNN的预测处理模块,GR-CNN最终的输出是恢复的文本图像;所述的边缘引导恢复子网络GR-CNN表示为
g((Y,S)|ψ):(Y,S)→OS, (2)
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,表示输入的混合退化的文本图像,表示Y所对应的真实标签文本图像通过公式(4)计算所得到的边缘图,表示基于输入Y和S,GR-CNN输出的恢复图像,→表示GR-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2对应表示S和OS的长度和宽度,并且N1>M1,N2>M2,C表示Y和OS的通道数目;
所述的单独训练边缘引导恢复子网络GR-CNN具体包括以下步骤:
S21、在GR-CNN中,输入混合退化的文本图像Y到GR-CNN的上采样处理模块中,上采样处理模块如下:
其中,→表示GR-CNN上采样处理模块从输入到输出的处理过程,表示图像的空间维度,M1、M2和C分别表示上采样处理模块输入图像Y的长度、宽度和通道数目,N1、N2和D分别表示输出张量的长度、宽度和通道数目,D是上采样处理模块中最后一层卷积层所使用的卷积核数目,并且N1>M1,N2>M2;
S22、在GR-CNN中,输入真实标签文本图像,根据公式(4)计算得到其对应的边缘图S,将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量,输入到GR-CNN的预测处理模块中,预测处理模块如下:
其中,→表示GR-CNN预测处理模块从输入到输出的处理过程,表示图像的空间维度,N1和N2分别表示预测处理模块输入张量和输出张量的长度和宽度,D+1表示输入张量的通道数目,D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目,C表示输出张量的通道数目;
步骤S21~步骤S22描述单独训练GR-CNN的详细过程步骤,依据公式(10)中的损失函数来单独训练GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,Sk表示Xk通过公式(4)计算所得到的边缘图,表示基于输入Yk和Sk,GR-CNN输出的恢复图像,根据公式(2)得损失函数lg(ψ)为:
其中,g表示GR-CNN的过程,ψ表示GR-CNN的参数向量,表示梯度算子,损失函数的第一项是数据保真项,测量的是输出图像和清晰图像之间的距离,第二项则是梯度之间的距离,能够防止网络倾向于模糊的输出;
S3、联合训练EP-CNN和GR-CNN,得到级联网络,继续对级联网络进行训练,提高图像的恢复效果,所述的联合训练EP-CNN和GR-CNN表示为:
其中,f和g函数分别表示EP-CNN过程和GR-CNN过程,和ψ分别表示EP-CNN和GR-CNN的参数向量,表示输入的混合退化的文本图像,表示基于输入Y和EP-CNN输出的预测边缘图,GR-CNN输出的恢复图像,→表示联合训练EP-CNN和GR-CNN从输入到输出的处理过程,表示图像的空间维度,M1和M2分别表示Y的长度和宽度,N1和N2分别表示O的长度和宽度,并且N1>M1,N2>M2,C表示Y和O的通道数目;
所述的联合训练边缘预测子网络EP-CNN和边缘引导恢复子网络GR-CNN,是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U,级联EP-CNN和GR-CNN网络,基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN 两个子网络的模型参数结果,继续对级联网络进行训练;
依据公式(11)中的损失函数,来联合训练EP-CNN和GR-CNN,使用{(Xk,Yk)},1≤k≤K表示用于训练的文本图像数据集,Uk表示EP-CNN输出的Xk的预测边缘图,Ok表示基于输入Yk和Uk,GR-CNN输出的恢复图像,根据公式(3)得损失函数为:
2.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,在进行步骤S1之前,先建立文本图像数据集,所述文本图像数据集包括:游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片。
3.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构,该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成,每一层都使用64个大小为6×6的卷积核,其后都跟着批标准化层(Batch Normalization)和修正线性单元层(Rectified Linear Unit,ReLU),所述反卷积层的步长均为2,卷积层的步长为1。
4.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法,其特征在于,EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构,该网络结构包括16个卷积层,每个卷积层使用64个大小为3×3的卷积核,除了最后一个卷积层以外,所有的卷积层后面都跟着Batch Normalization层和ReLU层,中间10个卷积层通过5个残差单元(Residual block)来实现,在进入残差单元前使用一个步长为2的卷积层,在残差单元之后使用一个步长为2的反卷积层,其他卷积层的步长均为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910425310.0A CN110211064B (zh) | 2019-05-21 | 2019-05-21 | 一种基于边缘引导的混合退化文本图像恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910425310.0A CN110211064B (zh) | 2019-05-21 | 2019-05-21 | 一种基于边缘引导的混合退化文本图像恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110211064A CN110211064A (zh) | 2019-09-06 |
CN110211064B true CN110211064B (zh) | 2022-11-18 |
Family
ID=67787945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910425310.0A Active CN110211064B (zh) | 2019-05-21 | 2019-05-21 | 一种基于边缘引导的混合退化文本图像恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110211064B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909865B (zh) * | 2019-11-18 | 2022-08-30 | 福州大学 | 边缘计算中基于分层张量分解的联邦学习方法 |
CN111105375B (zh) * | 2019-12-17 | 2023-08-22 | 北京金山云网络技术有限公司 | 图像生成方法及其模型训练方法、装置及电子设备 |
CN112001431B (zh) * | 2020-08-11 | 2022-06-28 | 天津大学 | 一种基于梳状卷积的高效图像分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426188A (zh) * | 2013-08-08 | 2013-12-04 | 华南理工大学 | 一种纹理描述方法 |
CN106408039A (zh) * | 2016-09-14 | 2017-02-15 | 华南理工大学 | 一种基于形变方法进行数据扩展的脱机手写汉字识别方法 |
WO2019001094A1 (zh) * | 2017-06-27 | 2019-01-03 | 杭州海康威视数字技术股份有限公司 | 一种视频编码方法、解码方法、装置及电子设备 |
CN109345449A (zh) * | 2018-07-17 | 2019-02-15 | 西安交通大学 | 一种基于融合网络的图像超分辨率及去非均匀模糊方法 |
-
2019
- 2019-05-21 CN CN201910425310.0A patent/CN110211064B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426188A (zh) * | 2013-08-08 | 2013-12-04 | 华南理工大学 | 一种纹理描述方法 |
CN106408039A (zh) * | 2016-09-14 | 2017-02-15 | 华南理工大学 | 一种基于形变方法进行数据扩展的脱机手写汉字识别方法 |
WO2019001094A1 (zh) * | 2017-06-27 | 2019-01-03 | 杭州海康威视数字技术股份有限公司 | 一种视频编码方法、解码方法、装置及电子设备 |
CN109345449A (zh) * | 2018-07-17 | 2019-02-15 | 西安交通大学 | 一种基于融合网络的图像超分辨率及去非均匀模糊方法 |
Non-Patent Citations (3)
Title |
---|
Text Detection and Recognition from Scene Images using MSER and CNN;S. Choudhary, N. K. Singh and S. Chichadwani;《2018 Second International Conference on Advances in Electronics, Computers and Communications (ICAECC)》;20181204;全文 * |
Video text detection with text edges and convolutional neural network;P. Hu, W. Wang and K. Lu;《2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR)》;20160609;全文 * |
基于边缘检测的卷积核数量确定方法;文元美等;《计算机应用研究》;20171115(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110211064A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
Li et al. | Survey of single image super‐resolution reconstruction | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN112465828B (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN110211064B (zh) | 一种基于边缘引导的混合退化文本图像恢复方法 | |
Wang et al. | Haze concentration adaptive network for image dehazing | |
KR102061923B1 (ko) | 입력 이미지의 계층적 초해상을 수행하는 방법 및 장치 | |
Zheng et al. | Residual multiscale based single image deraining | |
CN109523470B (zh) | 一种深度图像超分辨率重建方法及系统 | |
Wu et al. | Dynamic attention network for semantic segmentation | |
Cao et al. | New architecture of deep recursive convolution networks for super-resolution | |
Kang et al. | Multilayer degradation representation-guided blind super-resolution for remote sensing images | |
CN114494015A (zh) | 基于盲超分辨率网络的图像重建方法 | |
Tudavekar et al. | Dual‐tree complex wavelet transform and super‐resolution based video inpainting application to object removal and error concealment | |
Li et al. | Image reflection removal using end‐to‐end convolutional neural network | |
Zhao et al. | SSIR: Spatial shuffle multi-head self-attention for single image super-resolution | |
Tomar et al. | Attentive exfeat based deep generative adversarial network for noise robust face super-resolution | |
CN110047029A (zh) | 一种结合多层差扩展具有对比度增强的可逆信息隐藏方法及装置 | |
CN112598604A (zh) | 一种盲脸复原方法及系统 | |
Singh et al. | StegGAN: hiding image within image using conditional generative adversarial networks | |
Schirrmacher et al. | SR 2: Super-resolution with structure-aware reconstruction | |
Liu et al. | Gradient prior dilated convolution network for remote sensing image super-resolution | |
Yang et al. | Deep convolutional grid warping network for joint depth map upsampling | |
Huang et al. | Dual-branche attention network for super-resolution of remote sensing images | |
Seke et al. | Multi‐frame super‐resolution algorithm using common vector approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |