CN110211064B

CN110211064B - 一种基于边缘引导的混合退化文本图像恢复方法

Info

Publication number: CN110211064B
Application number: CN201910425310.0A
Authority: CN
Inventors: 全宇晖; 杨婕婷
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2022-11-18
Anticipated expiration: 2039-05-21
Also published as: CN110211064A

Abstract

本发明公开了一种基于边缘引导的混合退化文本图像恢复方法，包括以下步骤：S1、单独训练EP‑CNN，计算混合退化文本图像对应的边缘图，将混合退化文本图像及其边缘图输入EP‑CNN的上采样处理模块，利用EP‑CNN的预测处理模块的输入，输出真实标签文本图像的预测边缘图；S2、单独训练GR‑CNN，将混合退化的文本图像输入到上采样处理模块，然后计算得到真实标签文本图像所对应的边缘图，通过预测处理模块输出是恢复的文本图像；S3、联合训练EP‑CNN和GR‑CNN，得到级联网络，继续对级联网络进行训练。本发明的优点是高效简便，能够显著地提高退化文本图像的视觉质量和可读性，并且优于现有的其他先进方法。

Description

一种基于边缘引导的混合退化文本图像恢复方法

技术领域

本发明涉及图像处理技术领域，特别涉及了一种基于边缘引导的混合退化文本图像恢复方法。

背景技术

文本是单词、句子、段落和书籍的组成部分。文本图像指的是以文本为主要内容的图像。这类图像是日常生活中常见的一种图像类型，例如文档图像、扫描卡片、课堂笔记图片等等。此外，图像中的文本内容为各种视觉应用提供了丰富而且精确的信息，例如图像搜索、目标地理定位、机器人导航和人机交互等等。因此，在文本提取、定位和识别方面已经积累了大量的工作。然而在实验中，相机拍摄或者从大尺寸图像中截取的文本图像的视觉质量往往会受到许多因素的影响，如低分辨率、运动/失焦模糊、低信噪比等。这种退化可能会显著降低文本图像的可读性。因此，一种能够显著提高退化文本图像视觉质量的文本图像恢复方法，在日常生活以及涉及文本处理的视觉应用中都是十分必要的。现有的文本图像恢复方法大多集中于文本图像去模糊或者超分辨率。然而，低分辨率和模糊往往同时发生在真实场景中，特别是当文本图像是从大尺寸图像中截取的时候。

低分辨率和模糊是两个最常见的退化因素，低分辨率和模糊混合的退化可能使得文本图像的内容完全无法识别。假设

表示一张高质量的文本图像，而退化后的文本图像用

来表示，那么y可以被建模为

y＝DBx+n,(1)

其中，

表示一个可能包含抗锯齿处理的下采样操作算子，

表示一个模糊操作算子，

表示噪声。

在实际应用中，模糊算子B通常是未知的，准确估计B是一个非常具有挑战性的任务。此外，一个实际的下采样算子通常涉及到一个抗锯齿处理过程，其平滑核也是未知的。一般情况下，没有额外的输入，很难可靠地估计DB。

文本图像的去模糊可以使用一般的图像去模糊方法来实现，这些方法通常依赖于对图像梯度的一些统计先验。然而这些基于一般自然图像的先验对于文本图像来说是不准确的。例如，文本图像不服从图像梯度的重尾分布，而图像梯度的重尾分布常常应用于图像去模糊技术中。同样的，文本图像的超分辨率也可以通过调用一般的图像超分辨率方法来实现。但由于文本图像的特殊性，针对文本图像设计的方法比一般方法具有更好的性能。现有的文本图像超分辨率方法大多是基于范例的方法，它们使用来自高分辨率和低分辨率图像的样本块来指导恢复过程。基于范例的方法严重依赖于样本块的数据集，通常只适用于文档图像。有研究发现，在对低分辨率和模糊的图像进行恢复的时候，连续应用去模糊和超分辨率技术往往不能取得令人满意的效果。

发明内容

针对文本图像的特点，本发明将边缘引导机制引入卷积神经网络，旨在恢复低分辨率和模糊的退化文本图像，从而大大提高其可读性，可以应用于带有文字处理模块的移动设备和各种视觉任务中。边缘引导机制的引入是由于文本图像的边缘图与其本身具有很强的相关性。事实上，在识别方面，其边缘图几乎与文本图像本身是一样的。换句话说，在预测的文本图像边缘图的引导下，即使不知道退化过程，也可以直接依据退化后的图像恢复出高质量的文本图像。从某种意义上说，边缘图的引导使得退化图像与恢复图像之间的映射更加可能，也更容易学习。

在卷积神经网络中，本发明使用了一对对偶神经网络来实现边缘引导机制。简单地说，一个卷积神经网络经过训练，用于预测真实标签文本图像的边缘图；另一个卷积神经网络经过训练，在预测边缘图的帮助下来恢复退化的文本图像。其中有一个问题是边缘图能否被准确预测。由于文本图像在边缘上有其特殊的特征，因此边缘预测的任务相比自然图像要容易得多。例如，在文本图像中，大部分边缘具有足够大的尺寸，并且这些边缘的方向是多样的，这是已知的使得图像去模糊更加容易的配置。

本发明所提出的卷积神经网络，包含一对对偶神经网络：一个是边缘预测子网络(Edgeprediction Convolutional Neural Network,EP-CNN)，用于预测真实标签文本图像的边缘图；一个是边缘引导恢复子网络(Edge-guided recovery Convolutional NeuralNetwork,GR-CNN)，以退化的文本图像和预测的边缘图作为输入，用来恢复未知的清晰图像。为了使得两个子网络能够更好地发挥各自的作用，本发明采用首先分别训练两个子网络，然后再联合训练的方式。

为了能够在更加广泛的文本图像上评估性能，本发明广泛收集高分辨率并且清晰的复杂文本图像，经过数据清洗和整理，建立了一个复杂文本图像数据集，用于神经网络的训练，所述文本图像数据集包括：游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片；用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后，得到的低分辨率并且模糊的混合退化的文本图像。

本发明至少通过如下技术方案之一实现。

一种基于边缘引导的混合退化文本图像恢复方法，包括以下步骤：

S1、单独训练边缘预测子网络(Edge prediction Convolutional NeuralNetwork,EP-CNN)，先将低分辨率并且模糊的混合退化文本图像输入到EP-CNN，计算其对应的边缘图，然后将混合退化的文本图像及其边缘图输入EP-CNN的上采样处理模块，上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入，最后输出真实标签文本图像的预测边缘图；所述真实标签文本图像指的是高分辨率并且清晰的目标文本图像；

S2、单独训练边缘引导恢复子网络(Edge-guided recovery ConvolutionalNeural Network,GR-CNN)，首先将混合退化的文本图像输入到GR-CNN的上采样处理模块，得到与真实标签文本图像尺寸大小相同的图像，然后通过计算得到真实标签文本图像所对应的边缘图，再将经过上采样处理模块得到的输出与真实标签文本图像的边缘图输入到GR-CNN的预测处理模块，GR-CNN最终的输出是恢复的文本图像；

S3、联合训练EP-CNN和GR-CNN，得到级联网络，继续对级联网络进行训练，提高图像的恢复效果。

进一步地，在进行步骤S1之前，先建立文本图像数据集，所述文本图像数据集包括：游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片；用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后，得到的低分辨率并且模糊的混合退化的文本图像。

进一步地，步骤S1所述边缘预测子网络(EP-CNN)表示为

其中，f表示EP-CNN的过程，

表示EP-CNN的参数向量，

表示输入的混合退化的文本图像，

表示输出的真实标签文本图像的预测边缘图，→表示EP-CNN从输入到输出的处理过程，

表示图像的空间维度，M₁和M₂分别表示Y的长度和宽度，N₁和N₂对应表示U的长度和宽度，并且N₁>M₁,N₂>M₂，C表示Y的通道数目，当Y为灰度图像时，C＝1，当Y为彩色图像时，C＝3。

进一步地，步骤S2所述边缘引导恢复子网络(GR-CNN)表示为

g((Y,S)|ψ):(Y,S)→O^s,(3)

其中，g表示GR-CNN的过程，ψ表示GR-CNN的参数向量，

表示输入的混合退化的文本图像，

表示Y所对应的真实标签文本图像通过公式(5)计算所得到的边缘图，

表示基于输入Y和S，GR-CNN输出的恢复图像，→表示GR-CNN从输入到输出的处理过程，

表示图像的空间维度，M₁和M₂分别表示Y的长度和宽度，N₁和N₂对应表示S和O^s的长度和宽度，并且N₁>M₁,N₂>M₂，C表示Y和O^s的通道数目。

进一步地，步骤S3所述的联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN)表示为：

其中，f和g函数分别表示EP-CNN过程和GR-CNN过程，

和ψ分别表示EP-CNN和GR-CNN的参数向量，

表示输入的混合退化的文本图像，

表示基于输入Y和EP-CNN输出的预测边缘图，GR-CNN输出的恢复图像，→表示联合训练EP-CNN和GR-CNN从输入到输出的处理过程，

表示图像的空间维度，M₁和M₂分别表示Y的长度和宽度，N₁和N₂分别表示O的长度和宽度，并且N₁>M₁,N₂>M₂，C表示Y和O的通道数目。

进一步地，步骤S1所述的单独训练边缘预测子网络(EP-CNN)具体包括以下步骤：

S11、在EP-CNN中，输入混合退化的文本图像Y，其边缘图E通过公式(5)进行计算，

其中，E(x,y)表示边缘图E在二维空间点(x,y)处的像素值，C表示Y的通道数目，

表示点(x,y)的空间邻域，

表示包含在点

空间邻域内的所有点，Y(x,y,c)表示Y在三维空间点(x,y,c)处的像素值，同理，Y(x₀,y₀,c)表示Y在三维空间点(x₀,y₀,c)处的像素值；

S12、将Y和其通过公式(5)计算所得的边缘图，叠成一个(C+1)通道的张量，输入到EP-CNN的上采样处理模块中，上采样处理模块如下：

其中，→表示EP-CNN上采样处理模块从输入到输出的处理过程，

表示图像的空间维度，M₁、M₂和(C+1)分别表示输入张量的长度、宽度和通道数目，N₁、N₂和D分别表示上采样处理模块输出张量的长度、宽度和通道数目，D是EP-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目，并且N₁>M₁,N₂>M₂；

S13、将上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入，预测处理模块如下：

其中，→表示EP-CNN预测处理模块从输入到输出的处理过程，

表示图像的空间维度，N₁和N₂分别表示预测处理模块输入和输出张量的长度和宽度，D表示输入张量的通道数目，用U来表示预测处理模块输出的真实标签文本图像的预测边缘图；

步骤S11～步骤S13描述单独训练EP-CNN的详细过程步骤，依据公式(8)中的损失函数来单独训练EP-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像，S_k表示X_k通过公式(5)计算所得到的边缘图，S_k表示的是第k张真实标签文本图像的边缘图，U_k表示EP-CNN输出的X_k的预测边缘图，根据公式(2)得

损失函数

为：

其中，f表示EP-CNN的过程，

表示EP-CNN的参数向量，

表示梯度算子，损失函数

的第一项是数据保真项，测量的是输出图像和清晰图像之间的距离，第二项则是梯度之间的距离，能够防止网络倾向于模糊的输出。

进一步地，步骤S2所述的单独训练边缘引导恢复子网络(GR-CNN)具体包括以下步骤：

S21、在GR-CNN中，输入混合退化的文本图像Y到GR-CNN的上采样处理模块中，上采样处理模块如下：

其中，→表示GR-CNN上采样处理模块从输入到输出的处理过程，

表示图像的空间维度，M₁、M₂和C分别表示输入图像Y的长度、宽度和通道数目，N₁、N₂和D分别表示上采样处理模块输出张量的长度、宽度和通道数目，D是上采样处理模块中最后一层卷积层所使用的卷积核数目，并且N₁>M₁,N₂>M₂；

S22、在GR-CNN中，输入真实标签文本图像，根据公式(5)计算得到其对应的边缘图S，将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量，输入到GR-CNN的预测处理模块中，预测处理模块如下：

其中，→表示GR-CNN预测处理模块从输入到输出的处理过程，

表示图像的空间维度，N₁和N₂分别表示输入和输出张量的长度和宽度，(D+1)表示输入张量的通道数目，D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目，C表示输出张量的通道数目；

步骤S21～步骤S22描述单独训练GR-CNN的详细过程步骤，依据公式(11)中的损失函数来单独训练GR-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后得到的混合退化的文本图像，S_k表示X_k通过公式(5)计算所得到的边缘图，

表示基于输入Y_k和S_k，GR-CNN输出的恢复图像，根据公式(3)得

损失函数

为：

其中，g表示GR-CNN的过程，ψ表示GR-CNN的参数向量，

表示梯度算子，损失函数

进一步地，步骤S3所述的联合训练具体如下：

步骤S3所述的联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN)，是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U，级联EP-CNN和GR-CNN网络，基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN两个子网络的模型参数结果，继续对级联网络进行训练；

依据公式(12)中的损失函数，来联合训练EP-CNN和GR-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后得到的混合退化的文本图像，U_k表示EP-CNN输出的X_k的预测边缘图，O_k表示基于输入Y_k和U_k，GR-CNN输出的恢复图像，根据公式(4)得

损失函数

为：

其中，f和g函数分别表示EP-CNN过程和GR-CNN过程，

和ψ分别表示EP-CNN和GR-CNN的参数向量，

表示梯度算子。

进一步地，EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构，该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成，每一层都使用64个大小为6×6的卷积核，其后都跟着批标准化层(BatchNormalization)和修正线性单元层(Rectified Linear Unit,ReLU)，所述反卷积层的步长均为2，卷积层的步长为1。

进一步地，EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构，包括16个卷积层，每个卷积层使用64个大小为3×3的卷积核，除了最后一个卷积层以外，所有的卷积层后面都跟着BatchNormalization层和ReLU层，中间10个卷积层通过5个残差单元(Residualblock)来实现，在进入残差单元前使用一个步长为2的卷积层，在残差单元之后使用一个步长为2的反卷积层，其他卷积层的步长均为1。

本发明与现有技术相比，具有以下优点和有益效果：

高质量的文本图像数据集能够极大地提高用于文本图像恢复的深度学习方法的学习能力。目前，这样的文本图像数据集很少，可用的数据集仅限于文档图像。本发明提供了一个大型的基准数据集，其中文本图像的类型非常多样化，这对文本图像处理相关的社区研究工作非常有益。

在已有的文档图像数据集以及本发明提出的复杂文本图像数据集上的实验结果均表明，本发明可以大大提高低分辨率并且模糊的混合退化文本图像的视觉质量，无论是在定量度量方面还是视觉质量方面，都优于现有的最先进的方法。

附图说明

图1是本实施例一种基于边缘引导的混合退化文本图像恢复方法的流程图；

图2是本实施例单独训练EP-CNN的训练流程图；

图3是本实施例单独训练GR-CNN的训练流程图；

图4是本实施例EP-CNN和GR-CNN所采用的上采样处理模块的网络架构；

图5是本实施例EP-CNN和GR-CNN所采用的预测处理模块的网络架构；

图6a是基于文档图像数据集实例，输入的混合退化文档图像；

图6b是基于文档图像数据集实例，使用GFN方法(Gated Fusion Network forJoint ImageDeblurring and Super-Resolution)产生的视觉效果图；

图6c是基于文档图像数据集实例，使用SCGAN方法(Learning to Super-ResolveBlurry Face and Text Images)产生的视觉效果图；

图6d是基于文档图像数据集实例，使用本发明的产生视觉效果图；

图6e是基于文档图像数据集实例，混合退化文档图像图6a对应的真实标签文本图像；

图7a是基于复杂文本图像数据集实例，输入的混合退化复杂文本图像；

图7b是基于复杂文本图像数据集实例，使用GFN方法产生的视觉效果图；

图7c是基于复杂文本图像数据集实例，使用SCGAN方法产生的视觉效果图；

图7d是基于复杂文本图像数据集实例，使用本发明产生的视觉效果图；

图7e是基于复杂文本图像数据集实例，混合退化复杂文本图像图7a对应的真实标签文本图像；

图8a是基于真实文本图像实例，输入的真实退化文本图像；

图8b是基于真实文本图像实例，使用GFN方法产生的视觉效果图；

图8c是基于真实文本图像实例，使用SCGAN方法产生的视觉效果图；

图8d是基于真实文本图像实例，使用本发明产生的视觉效果图。

具体实施方式

下面结合实施例子以及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

目前可以用于文本图像恢复训练的可用数据集非常少。在Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and Text Images”中提出了一个可用的文档图像数据集。在这个数据集中，训练集包含100多万个16×16的低分辨率模糊图像块，这些图像块是从

等人的“Convolutional Neural Networks for DirectTextDeblurring”中提出的数据集裁剪出来的64×64的模糊图像块经过下采样因子为4的双三次插值而生成的。训练数据中存在两种模糊类型：(1)随机游走产生的运动模糊，模糊核尺寸在[5,21]区间内采样；(2)由抗锯齿圆盘实现的失焦模糊，半径从[0,4]区间内采样。然后添加从[0,7/255]区间内采样的零均值独立同分布高斯噪声。对于测试集，通过上述两种类型的模糊和下采样操作，共产生了100张低分辨率的模糊文本图像。但是上述数据集中的图像基本都是背景单一的文档图像。

为了能够在更加广泛的文本图像上评估性能，在本实施例中，广泛收集高分辨率并且清晰的复杂文本图像，经过数据清洗和整理，建立了一个复杂文本图像数据集，用于神经网络训练，所述文本图像数据集包括：游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片。同样地，复杂文本图像数据集使用

等人的“Convolutional Neural Networksfor DirectText Deblurring”中提出的两种模糊类型和下采样因子为4的双三次插值来生成混合退化文本图像。复杂文本图像数据集被划分为包含100多万个50×50的混合退化文本图像块的训练集和包含1138张图片的测试集。

本实施例中包括两个不同的文本图像数据集，一个是Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and Text Images”中提出的文档图像数据集，一个是本发明提出的复杂文本图像数据集。

如图1所示的一种基于边缘引导的混合退化文本图像恢复方法来恢复混合退化文本图像，具体包括以下步骤：

S1、边缘预测子网络(EP-CNN)表示为

其中，f表示EP-CNN的过程，

表示EP-CNN的参数向量，

表示输入的混合退化的文本图像，

如图2所示，单独训练EP-CNN具体步骤如下：

S11、在EP-CNN中，输入混合退化的文本图像Y，其边缘图E通过公式(2)进行计算，

表示点(x,y)的空间邻域，

表示包含在点

S12、将Y和其通过公式(2)计算所得的边缘图，叠成一个(C+1)通道的张量，输入到EP-CNN的上采样处理模块中，上采样处理模块如下：

表示图像的空间维度，M₁、M₂和(C+1)分别表示上采样处理模块输入张量的长度、宽度和通道数目，N₁、N₂和D分别表示输出张量的长度、宽度和通道数目，D是上采样处理模块中最后一层卷积层所使用的卷积核数目，并且N₁>M₁,N₂>M₂；

S13、将上采样处理模块的输出张量作为到EP-CNN的预测处理模块的输入，预测处理模块如下：

其中，→表示EP-CNN预测处理模块从输入到输出的处理过程，

表示图像的空间维度，N₁和N₂分别表示预测处理模块输入张量和输出张量的长度和宽度，D表示输入张量的通道数目，用U来表示预测处理模块输出的真实标签文本图像的预测边缘图；

步骤S11～步骤S13描述了单独训练EP-CNN的详细过程步骤，依据公式(5)中的损失函数来单独训练EP-CNN。使用{(X_k,Y_k),1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像，S_k表示X_k通过公式(2)计算所得到的边缘图，U_k表示EP-CNN输出的X_k的预测边缘图。根据公式(1)得

损失函数

为：

其中，f表示EP-CNN的过程，

表示EP-CNN的参数向量，

表示梯度算子，损失函数

S2、边缘引导恢复子网络(GR-CNN)表示为

g((Y,S)|ψ):(Y,S)→O^s,(6)

其中，g表示GR-CNN的过程，ψ表示GR-CNN的参数向量，

表示输入的混合退化的文本图像，

表示Y所对应的真实标签文本图像通过公式(2)计算所得到的边缘图，

如图3所示，单独训练GR-CNN具体步骤如下：

表示图像的空间维度，M₁、M₂和C分别表示上采样处理模块输入图像Y的长度、宽度和通道数目，N₁、N₂和D分别表示输出张量的长度、宽度和通道数目，D是上采样处理模块中最后一层卷积层所使用的卷积核数目，并且N₁>M₁,N₂>M₂；

S22、在GR-CNN中，输入真实标签文本图像，根据公式(2)计算得到其对应的边缘图S，将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量，输入到GR-CNN的预测处理模块中，预测处理模块如下：

其中，→表示GR-CNN预测处理模块从输入到输出的处理过程，

表示图像的空间维度，N₁和N₂分别表示预测处理模块输入张量和输出张量的长度和宽度，(D+1)表示输入张量的通道数目，D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目，C表示输出张量的通道数目；

步骤S21～步骤S22描述单独训练GR-CNN的详细过程步骤，依据公式(9)中的损失函数来单独训练GR-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后得到的混合退化的文本图像，S_k表示X_k通过公式(2)计算所得到的边缘图，

表示基于输入Y_k和S_k，GR-CNN输出的恢复图像，根据公式(6)得

损失函数

为：

其中，g表示GR-CNN的过程，ψ表示GR-CNN的参数向量，

表示梯度算子，损失函数

S3、联合训练边缘预测子网络(EP-CNN)和边缘引导恢复子网络(GR-CNN)表示为：

其中，f和g函数分别表示EP-CNN过程和GR-CNN过程，

和ψ分别表示EP-CNN和GR-CNN的参数向量，

表示输入的混合退化的文本图像，

联合训练EP-CNN和GR-CNN，是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U，级联EP-CNN和GR-CNN网络，基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN两个子网络的模型参数结果，继续对级联网络进行训练；

步骤S3依据公式(11)中的损失函数，来联合训练EP-CNN和GR-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后得到的混合退化的文本图像，U_k表示EP-CNN输出的X_k的预测边缘图，O_k表示基于输入Y_k和U_k，GR-CNN输出的恢复图像，根据公式(10)得

损失函数

为：

其中，f和g函数分别表示EP-CNN过程和GR-CNN过程，

和ψ分别表示EP-CNN和GR-CNN的参数向量，

表示梯度算子。

如图4所示，所述的EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构，该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成，每一层都使用64个大小为6×6的卷积核，其后都跟着批标准化层(BatchNormalization)和修正线性单元层(Rectified Linear Unit,ReLU)，所述反卷积层的步长均为2，卷积层的步长为1。

如图5所示，所述的EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构，该网络结构包括16个卷积层，每个卷积层使用64个大小为3×3的卷积核，除了最后一个卷积层以外，所有的卷积层后面都跟着BatchNormalization层和ReLU层，中间10个卷积层通过5个残差单元(Residualblock)来实现，在进入残差单元前使用一个步长为2的卷积层，在残差单元之后使用一个步长为2的反卷积层，其他卷积层的步长均为1。

步骤S1～S3都由ADAM优化算法来进行训练，批处理大小(Batchsize)固定为4。当分别训练EP-CNN和GR-CNN的时候，初始的学习率设置为0.01。当联合两个网络进行调整时，初始的学习率设置为0.001。每完成10次迭代学习率就乘以0.1。公式(5、9、11)的权重分别设置为α＝0.5，β＝2，γ＝2.5。

在Xiangyu Xu等人的“Learning to Super-Resolve Blurry Face and TextImages”中提出了一个使用生成对抗网络框架对低分辨率和模糊混合退化的文本和人脸图像进行恢复的方法，称为SCGAN，是现有性能最佳的方法。在Xinyi Zhang等人的“GatedFusion Network for Joint ImageDeblurring and Super-Resolution”中提出了一个高效的端到端网络来从低分辨率并且模糊的图像中恢复出高分辨率并且清晰的图像的方法，称为GFN。

本实施例使用了三种衡量图像恢复方法的客观标准，分别为：峰值信噪比(PeakSignal to Noise Ratio，PSNR)，结构相似性(Structural Similarity，SSIM)和光学字符识别(Optical Character Recognition，OCR)准确率。

1.文档图像数据集实例：在Xiangyu Xu等人提出的背景单一的文档图像数据集上，GFN方法在测试集上的PSNR结果为16.57dB，SSIM结果为0.8078，OCR准确率为80.69％；SCGAN方法在测试集上的PSNR结果为20.65dB，SSIM结果为0.9069，OCR准确率为90.13％；本发明在测试集上的PSNR结果为22.15dB，SSIM结果为0.9331，OCR准确率为97.98％。可以看出，本发明在很大程度上优于其他方法，这说明了本发明在同时对文档图像进行去模糊和超分辨率处理方面的有效性。图6a是一张低分辨率并且模糊的混合退化文档图像，使用GFN、SCGAN和本发明分别对图6a的混合退化文档图像进行恢复，GFN方法的视觉效果图见图6b，SCGAN方法的视觉效果图见图6c，本发明的视觉效果图见图6d，图6e是混合退化文档图像图6a对应的真实标签文本图像。GFN方法的性能并不令人满意，这是可以预期的，因为它是针对一般图像来设计的。专门为文本图像设计的SCGAN方法所恢复的文本内容容易被棋盘效果所影响，因此导致其的视觉效果较差。显然，本发明所输出的图像具有更好的视觉质量，能够恢复更多细节。

2.复杂文本图像数据集实例：在本发明提出的复杂文本图像数据集上，本发明基于该训练数据集，重新调整了SCGAN和GFN的网络模型。在测试时，测试集中的1138张图片被裁剪成200×200的图像块以进行评估。采用PSNR和SSIM的结果作为评估标准，GFN方法在测试集上的PSNR结果为23.52dB，SSIM结果为0.7867；SCGAN方法在测试集上的PSNR结果为21.34dB，SSIM结果为0.7560；本发明在测试集上的PSNR结果为26.64dB，SSIM结果为0.8700。可以看出，在包含复杂背景的文本图像数据集上，本发明也是在很大程度上优于其他两种方法。图7a是一张低分辨率并且模糊的混合退化复杂文本图像，使用GFN、SCGAN和本发明分别对图7a的混合退化复杂文本图像进行恢复，GFN方法的视觉效果图见图7b，SCGAN方法的视觉效果图见图7c，本发明的视觉效果图见图7d，图7e是混合退化复杂文本图像图7a对应的真实标签文本图像；显然，本发明所输出的图像具有更好的视觉质量，能够恢复更多细节。

3.真实文本图像实例：在真实的图像上也分别测试了上述三个方法。图8a是一张真实退化的文本图像，使用GFN、SCGAN和本发明分别对图8a的真实退化文本图像进行恢复，GFN方法的视觉效果图见图8b，SCGAN方法的视觉效果图见图8c，本发明的视觉效果图见图8d。可以看出，本发明对比其他方法产生了更好的视觉效果和更加锐利的特征。

引入边缘引导机制是本发明的关键。为了展示这种机制的有效性，在本发明中删除了EP-CNN，然后重新训练了该网络。在文档图像数据集上，该网络的PSNR结果下降了2.4dB，SSIM结果下降了0.05。以上结果充分地说明了边缘引导机制的有效性。

上述实例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围。

Claims

1.一种基于边缘引导的混合退化文本图像恢复方法，其特征在于，所述方法包括以下步骤：

S1、单独训练边缘预测子网络EP-CNN，先将输入混合退化文本图像输入到EP-CNN，计算其对应的边缘图，然后将混合退化文本图像及其边缘图输入EP-CNN的上采样处理模块，上采样处理模块的输出张量作为EP-CNN的预测处理模块的输入，最后输出真实标签文本图像的预测边缘图；所述真实标签文本图像指的是高分辨率并且清晰的目标文本图像；所述的边缘预测子网络EP-CNN表示为

其中，f表示EP-CNN的过程，

表示EP-CNN的参数向量，

表示输入的混合退化的文本图像，

表示图像的空间维度，M₁和M₂分别表示Y的长度和宽度，N₁和N₂对应表示U的长度和宽度，并且N₁>M₁,N₂>M₂，C表示Y的通道数目，当Y为灰度图像时，C＝1；当Y为彩色图像时，C＝3；

所述的单独训练边缘预测子网络EP-CNN具体包括以下步骤：

S11、在EP-CNN中，输入混合退化文本图像Y，其边缘图E通过公式(4)进行计算，

表示点(x,y)的空间邻域，

表示包含在点

S12、将Y及其通过公式(4)计算所得的边缘图，叠成一个C+1通道的张量，输入到EP-CNN的上采样处理模块中，上采样处理模块如下：

表示图像的空间维度，M₁、M₂和C+1分别表示上采样处理模块输入张量的长度、宽度和通道数目，N₁、N₂和D分别表示输出张量的长度、宽度和通道数目，D是上采样处理模块中最后一层卷积层所使用的卷积核数目，并且N₁>M₁,N₂>M₂；

其中，→表示EP-CNN预测处理模块从输入到输出的处理过程，

步骤S11～步骤S13描述单独训练EP-CNN的详细过程步骤，依据公式(7)中的损失函数来单独训练EP-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，其中，K表示用于训练的文本图像数据集中的图像总数，X_k指代用于训练的图像数据集中的第k张真实标签文本图像，Y_k是X_k经过低分辨率和模糊操作之后得到的低分辨率并且模糊的混合退化的文本图像，S_k表示X_k通过公式(4)计算所得到的边缘图，U_k表示EP-CNN输出的X_k的预测边缘图，根据公式(1)得

损失函数

为：

其中，f表示EP-CNN的过程，

表示EP-CNN的参数向量，

表示梯度算子，损失函数

的第一项是数据保真项，测量的是输出图像和清晰图像之间的距离，第二项则是梯度之间的距离，能够防止网络倾向于模糊的输出；

S2、单独训练边缘引导恢复子网络GR-CNN，首先将混合退化的文本图像输入到GR-CNN的上采样处理模块，得到与真实标签文本图像尺寸大小相同的图像，然后通过计算得到真实标签文本图像所对应的边缘图，再将上采样处理模块的输出与真实标签文本图像的边缘图输入到GR-CNN的预测处理模块，GR-CNN最终的输出是恢复的文本图像；所述的边缘引导恢复子网络GR-CNN表示为

g((Y,S)|ψ):(Y,S)→O^S, (2)

其中，g表示GR-CNN的过程，ψ表示GR-CNN的参数向量，

表示输入的混合退化的文本图像，

表示Y所对应的真实标签文本图像通过公式(4)计算所得到的边缘图，

表示图像的空间维度，M₁和M₂分别表示Y的长度和宽度，N₁和N₂对应表示S和O^S的长度和宽度，并且N₁>M₁,N₂>M₂，C表示Y和O^S的通道数目；

所述的单独训练边缘引导恢复子网络GR-CNN具体包括以下步骤：

S22、在GR-CNN中，输入真实标签文本图像，根据公式(4)计算得到其对应的边缘图S，将GR-CNN上采样处理模块的输出张量和S叠成一个(D+1)通道的张量，输入到GR-CNN的预测处理模块中，预测处理模块如下：

其中，→表示GR-CNN预测处理模块从输入到输出的处理过程，

表示图像的空间维度，N₁和N₂分别表示预测处理模块输入张量和输出张量的长度和宽度，D+1表示输入张量的通道数目，D是GR-CNN上采样处理模块中最后一层卷积层所使用的卷积核数目，C表示输出张量的通道数目；

步骤S21～步骤S22描述单独训练GR-CNN的详细过程步骤，依据公式(10)中的损失函数来单独训练GR-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，S_k表示X_k通过公式(4)计算所得到的边缘图，

表示基于输入Y_k和S_k，GR-CNN输出的恢复图像，根据公式(2)得

损失函数l_g(ψ)为：

其中，g表示GR-CNN的过程，ψ表示GR-CNN的参数向量，

表示梯度算子，损失函数

S3、联合训练EP-CNN和GR-CNN，得到级联网络，继续对级联网络进行训练，提高图像的恢复效果，所述的联合训练EP-CNN和GR-CNN表示为：

其中，f和g函数分别表示EP-CNN过程和GR-CNN过程，

和ψ分别表示EP-CNN和GR-CNN的参数向量，

表示输入的混合退化的文本图像，

表示图像的空间维度，M₁和M₂分别表示Y的长度和宽度，N₁和N₂分别表示O的长度和宽度，并且N₁>M₁,N₂>M₂，C表示Y和O的通道数目；

所述的联合训练边缘预测子网络EP-CNN和边缘引导恢复子网络GR-CNN，是将单独训练GR-CNN时输入的真实标签文本图像的边缘图S替换为EP-CNN输出的预测边缘图U，级联EP-CNN和GR-CNN网络，基于步骤S1和步骤S2单独训练所得到的EP-CNN和GR-CNN 两个子网络的模型参数结果，继续对级联网络进行训练；

依据公式(11)中的损失函数，来联合训练EP-CNN和GR-CNN，使用{(X_k,Y_k)},1≤k≤K表示用于训练的文本图像数据集，U_k表示EP-CNN输出的X_k的预测边缘图，O_k表示基于输入Y_k和U_k，GR-CNN输出的恢复图像，根据公式(3)得

损失函数

为：

其中，f和g函数分别表示EP-CNN过程和GR-CNN过程，

和ψ分别表示EP-CNN和GR-CNN的参数向量，

表示梯度算子。

2.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法，其特征在于，在进行步骤S1之前，先建立文本图像数据集，所述文本图像数据集包括：游戏卡、明信片、乐谱、书法、海报、车牌、证书和幻灯片。

3.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法，其特征在于，EP-CNN的上采样处理模块和GR-CNN的上采样处理模块采用相同的网络结构，该网络结构主要由反卷积层(Deconvolution)、卷积层(Convolution)、反卷积层依次连接组成，每一层都使用64个大小为6×6的卷积核，其后都跟着批标准化层(Batch Normalization)和修正线性单元层(Rectified Linear Unit,ReLU)，所述反卷积层的步长均为2，卷积层的步长为1。

4.根据权利要求1所述的一种基于边缘引导的混合退化文本图像恢复方法，其特征在于，EP-CNN的预测处理模块和GR-CNN的预测处理模块采用相同的网络结构，该网络结构包括16个卷积层，每个卷积层使用64个大小为3×3的卷积核，除了最后一个卷积层以外，所有的卷积层后面都跟着Batch Normalization层和ReLU层，中间10个卷积层通过5个残差单元(Residual block)来实现，在进入残差单元前使用一个步长为2的卷积层，在残差单元之后使用一个步长为2的反卷积层，其他卷积层的步长均为1。