CN109410239A

CN109410239A - 一种基于条件生成对抗网络的文本图像超分辨率重建方法

Info

Publication number: CN109410239A
Application number: CN201811320070.XA
Authority: CN
Inventors: 王雨阳; 苏丰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-01
Anticipated expiration: 2038-11-07
Also published as: CN109410239B

Abstract

本发明公开了一种基于条件生成对抗网络的文本图像超分辨率重建方法。该方法修改了普通的条件生成对抗网络的结构，使其更加适应于文本图像的超分辨率重建任务，另外引入并利用了文本‑非文本二值分割图像作为超分辨率重建模型的额外训练监督信息，并结合文本‑非文本二值分割信息构造模型的损失函数以约束模型的训练，使得超分辨率重建模型更加集中于图像中的文本部分。相比一般图像超分辨率方法，本发明公开的文本图像超分辨率重建方法更加充分和针对性地利用了文本自身信息，有效提高了文本图像超分辨率重建的质量。

Description

一种基于条件生成对抗网络的文本图像超分辨率重建方法

技术领域

本发明属于图像处理技术领域，具体涉及文本图像超分辨率重建方法。

背景技术

随着各种具备拍照/摄像功能的智能设备如手机、数码相机/摄像机和监控设备等的日益广泛使用以及作为信息共享与传播载体的互联网的快速发展，在人们的日常生活中可接触到大量的图像数据，如何从这些图像数据中高效提取有用的语义信息，对图像数据资源的有效利用具有重要的意义。其中，图像中的文本对象携带有关于图像和场景的丰富语义内容，对其进行有效提取可以在图像分析、理解、分类、检索、推荐等应用中起到重要的作用。另一方面，由于受到自然场景中图像采集设备的分辨率、场景光照强弱、文字距离远近等诸多因素的影响，很多时候实际获得的文本图像分辨率相对较低，为进一步进行文字的检测、识别等处理造成了相当大的困难。因此，通过使用超分辨率方法在获得的低分辨率文本图像的基础上，重建出高分辨率文本图像的技术具有十分重要的应用价值。

区别于传统基于多图像融合的超分辨率方法，近年来在许多领域已经获得成功的深度学习技术被引入到基于单个图像的超分辨率重建问题中，取得了优于传统方法的结果。此类方法一般采用低分辨率/高分辨率图像样本对作为训练数据，构建并使用深度神经网络从中学习低分辨率图像到高分辨率图像的映射，进而利用训练得到的网络对输入的低分辨率图像进行超分辨率重建处理，获得高分辨率的输出结果图像。

在用于图像超分辨率重建的深度神经网络模型中，生成对抗网络是最近新兴的一种深度学习网络结构，其由生成器和判别器两部分网络模块组成。其中，生成器网络从训练样本中学习生成以假乱真的目标图像样本，而判别器则学习区分生成器生成的图像样本和真实的图像样本，两者互相对抗博弈，以此学习到真实图像样本的潜在分布。在图像超分辨率重建任务中，生成对抗网络被用来基于低分辨率图像生成与真实高分辨率图像高度相似的超分辨率重建结果图像。

发明内容

目前，基于生成对抗网络进行图像超分辨率重建的方法很少，并且均未特别针对文本图像的超分辨率重建目标。由于文本图像的特殊性，文本图像的超分辨率重建任务往往更关注于提高其中文本部分而不是整个图像的分辨率，从而有助于后续对文本信息的有效提取。因此，相比于一般的图像超分辨率重建任务，文本图像的超分辨率重建需要针对性的处理模型和方法，以获得令人满意的超分辨率重建结果。

本发明公开了一种基于条件生成对抗网络的文本图像超分辨率重建方法，该方法在一般该方法在一般条件生成对抗网络的基础上，去除了生成器网络的残差块中的BN(Batch Normalization)层以保留图像中文本细节特征并加入了Inception模块以扩展网络的宽度和提取多尺度文本特征，并在判别器网络中加入了Dropout层帮助减少过拟合、提高训练的稳定性，使模型更加适合文本图像超分辨率重建目标。另一方面，该方法引入并利用了文本-非文本二值分割图像作为超分辨率重建模型的额外训练监督信息，并结合文本-非文本二值分割信息构造模型的损失函数以约束模型的训练，使得超分辨率重建模型更加集中于图像中的文本部分。相比一般图像超分辨率方法，本发明公开的文本图像超分辨率重建方法更加充分和针对性地利用了文本自身信息，有效提高了文本图像超分辨率重建的质量。

本发明公开了一种基于条件生成对抗网络的文本图像超分辨率重建方法，包括以下步骤：

(1)构建训练图像样本数据集，包括以下子步骤：

(1.1)对训练用高分辨率文本图像进行自适应阈值分割，生成与原图像相同尺寸的文本-非文本二值分割图像，其中对应文字的像素值设为1而对应非文字的像素值设为0。

(1.2)在包含RGB(Red红色，Green绿色，Blue蓝色)3个通道的文本图像的基础上，将二值分割图像作为文本图像的一个额外通道，拼接生成附带分割信息的4通道文本图像。

(1.3)在步骤(1.2)生成的4通道文本图像的基础上，分别对其使用Bicubic(双三次插值法)进行1/2比例、1/4比例分辨率缩小，生成分辨率逐级以2倍率减少的一组图像。

(1.4)将原始尺寸、1/2比例、1/4比例不同分辨率的文本图像分别切割为相同数量、位置对应、大小分别为n×n、n/2×n/2、n/4×n/4像素的图像块，其中n是原始尺寸图像切割成的图像块的边长。

(1.5)按照超分辨率重建的目标图像比率，选择切割自原始尺寸文本图像和按对应分辨率比例缩小后图像的对应相同位置的两个图像块作为高分辨率/低分辨率图像样本对，以此构成超分辨率重建模型的训练样本数据集。

(2)训练基于条件生成对抗网络的文本图像超分辨率重建模型，包括以下子步骤：

(2.1)构建生成器网络和判别器网络，相应设计模型损失函数。

(2.2)将训练样本中的低分辨率文本图像作为生成器网络的输入，将训练样本中对应的高分辨率文本图像样本作为生成器网络的预期输出，使用反向传播(BackPropagation，BP)算法训练生成器网络。

(2.3)将训练样本中的低分辨率和高分辨率文本图像作为正例图像对，训练样本中的低分辨率文本图像和生成器网络相应输出图像作为反例图像对，使用反向传播算法训练判别器网络。

(2.4)迭代步骤(2.2)和步骤(2.3)，使得生成器在与判别器的对抗训练过程中最终学习得到高分辨率文本图像的样本分布。

(3)对一幅待重建的低分辨率文本图像，将其与对应的二值分割图像一同输入训练后的文本图像超分辨率重建模型中的生成器网络，网络输出即为超分辨率重建后的高分辨率文本图像。

优选地，所述生成器网络以低分辨率文本图像作为输入，先通过卷积核为3×3的卷积层以及LRelu激活层，再依次通过16个去除BN层的残差块，然后将最后一个残差块的输出特征图与输入第一个残差块的特征图拼接后，输入Inception模块；Inception模块的输出特征图依次经过LRelu激活层、卷积核为3×3的反卷积层和Tanh激活层后，得到最终输出的超分辨率重建后的文本图像。

优选地，判别器网络以一对“低分辨率文本图像+对应训练高分辨率图像”或“低分辨率文本图像+对应超分辨率重建文本图像”作为输入，输入图像先依次经过卷积核为3×3、卷积步长为2的卷积层和LRelu激活层；接着依次经过卷积核为3×3、卷积步长为2的卷积层、LRelu激活层、BN层和Dropout层；随后依次经过卷积核为3×3的卷积层、LRelu激活层、BN层和Dropout层；最终经过卷积核为3×3的卷积层、Sigmoid激活层后，得到将作为网络输入的高分辨率图像判别为来自训练数据或来自生成器的概率。

本发明公开的一种基于条件生成对抗网络的文本图像超分辨率重建方法具有以下优点：

1.本发明公开的文本图像超分辨率重建模型引入并利用了文本-非文本二值分割图像作为超分辨率重建网络模型额外的输入和输出，相比于其他普通的超分辨率网络模型，增加了额外的监督信息，能够在文本图像的超分辨率重建问题上有效引导模型的训练，提高模型的训练效率和重建质量。

2.在本发明进一步的技术方案中，利用文本-非文本分割信息设计了侧重于文本部分的损失函数。相比于一般超分辨率方法所使用的损失函数，本发明的损失函数更加关注图像中的文本部分，有助于模型在训练过程中更集中于文本部分的学习和优化，从而生成文本部分更加清晰的图像。

3.在本发明进一步的技术方案中，超分辨率重建模型中的生成器网络中去除了一般残差块中的BN层，以保留图像中文本细节特征，避免了BN层对图像原始细节特征的破坏，使网络模型更加适合超分辨率重建任务，有助于提高文本图像的超分辨率重建质量。

4.在本发明进一步的技术方案中，超分辨率重建模型中的生成器网络中引入了Inception模块，有效扩展了网络的宽度，并能够在多个尺度学习和提取文本特征，使得生成的文本图像更加真实。

5.在本发明进一步的技术方案中，超分辨率重建模型中的判别器网络中加入了Dropout层，有助于减少模型的过拟合情况，增强了模型训练的稳定性，使模型更加适合文本图像的超分辨率重建目标。

附图说明

图1为本发明实施例中基于条件生成对抗网络的文本图像超分辨率方法的流程图

图2为生成器网络结构图

图3为去掉BN层的残差块结构图

图4为判别器网络结构图

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

一种基于条件生成对抗网络的文本图像超分辨率重建方法，如图1所示，包括以下步骤：

(1)构建训练图像样本数据集，包括以下子步骤：

(1.2)在包含RGB 3个通道的文本图像的基础上，将二值分割图像作为文本图像的一个额外通道，拼接生成附带分割信息的4通道文本图像。

(1.3)在步骤(1.2)生成的4通道文本图像的基础上，分别对其使用Bicubic(双三次插值法)进行1/2比例、1/4比例分辨率缩小，生成分辨率逐级以2倍率减少的一组文本图像。

(1.4)将原始尺寸、1/2比例、1/4比例不同分辨率的文本图像分别切割为相同数量、位置对应、大小分别为32×32、16×16、8×8像素的图像块。

(2.1)构建生成器网络和判别器网络，相应设计模型损失函数，包括以下子步骤：

(2.1.1)构建生成器网络，其组成结构如图1所示。网络以低分辨率文本图像作为输入，先通过卷积核为3×3的卷积(Conv)层以及LRelu(Leaky Relu)激活层，再依次通过16个去除BN(Batch Normalization)层的残差块，然后将最后一个残差块的输出特征图与输入第一个残差块的特征图拼接(Concatenation)后，输入Inception模块。Inception模块的输出特征图依次经过LRelu激活层、卷积核为3×3的反卷积(DeConv)层和Tanh激活层后，得到最终输出的超分辨率重建后的文本图像。

去除BN层的残差块的结构如图2所示：输入特征图依次经过卷积核为3×3的卷积层、Relu激活层、卷积核为3×3的卷积层，其结果特征图与输入特征图相加作为残差块的输出。

Inception模块来自于GoogLeNet网络模型，通过使用不同卷积核在不同的感受野下提取不同尺度的特征，并将得到的多个特征图拼接融合后作为输出。

LRelu函数定义为：输入x，当x＞0时，输出x；当x≤0时，输出mx(0＜m＜1，通常取较小值)。

Relu函数定义为：输入x，输出max(0，x)。

(2.1.2)构建判别器网络，其组成结构如图3所示。网络以一对“低分辨率文本图像+对应训练高分辨率图像”或“低分辨率文本图像+对应超分辨率重建文本图像”作为输入。输入图像先依次经过卷积核为3×3、卷积步长(Stride)为2的卷积层和LRelu激活层；接着依次经过卷积核为3×3、卷积步长为2的卷积层、LRelu激活层、BN层和Dropout层；随后依次经过卷积核为3×3的卷积层、LRelu激活层、BN层和Dropout层；最终经过卷积核为3×3的卷积层、Sigmoid激活层后，得到将作为网络输入的高分辨率图像判别为来自训练数据或来自生成器的概率。

(2.1.3)文本图像超分辨率重建模型中的条件生成对抗网络的总损失函数计算为：

L＝L_cGAN(G，D)+λL_content(G) (1)

其中，G代表生成器，D代表判别器，L_cGAN(G，D)是约束生成器和判别器之间互相对抗的损失函数，L_content(G)是用于约束生成器G进行超分辨率重建后所得结果图像与训练高分辨率图像之间相似性的损失函数，λ为约束两个损失函数比例的超参数(设为100)。

L_cGAN(G，D)对抗损失计算为：

其中，E代表数学期望，I代表文本图像，LR，HR分别代表低分辨率和高分辨率，G(I^LR)代表生成器G对低分辨率文本图像I^LR进行超分辨率重建后生成的文本图像。

L_content(G)相似性损失计算如下：

其中L_content(G)相似性损失进一步包括在图像颜色通道上的聚焦文本区域的L1相似性损失和在二值分割图像通道上的L1相似性损失L1相似性损失指比较的两者在各个维度上的差的绝对值的平均值，λ(^r)和λ(^m)分别代表约束两部分损失相对比例的超参数，分别设为1和0.5。两部分损失计算如下：

其中，M代表文本图像I对应的文本-非文本二值分割图像，W代表I和M的宽度，H代表I和M的高度，下标x，y表示I和M中某一像素的坐标，LR，片R分别代表低分辨率和高分辨率，代表高分辨率文本图像在像素(x，y)处的值，代表高分辨率文本-非文本二值分割图像在像素(x，y)处的值，G(I^LR)代表生成器G对低分辨率文本图像I^LR进行超分辨率重建后生成的文本图像，G(M^LR)代表生成器G对低分辨率文本-非文本二值分割图像M^LR进行超分辨率重建后生成的文本-非文本二值分割图像。

文本图像超分辨率重建模型中的条件生成对抗网络训练过程中的总体优化目标为：

(2.2)将步骤(1)得到的训练样本中的低分辨率文本图像作为生成器网络的输入，对应的高分辨率文本图像样本作为生成器网络的预期输出，基于步骤(2.1.3)中定义的损失函数，使用反向传播算法训练生成器网络。

(2.3)将步骤(1)得到的训练样本中的低分辨率和高分辨率文本图像作为正例图像对，训练样本中的低分辨率文本图像和生成器网络相应输出图像作为反例图像对，基于步骤(2.1.3)中定义的损失函数，使用反向传播算法训练判别器网络。

本实施例在64位Ubuntu 16.04.4操作系统平台上，基于TensorFlow-GPU 1.4.0深度学习框架并使用Python 3.5.2脚本语言构建文本图像超分辨率重建模型，使用一块NVIDIAGTX 1070Ti GPU完成模型的训练。训练过程使用Adam优化器并将学习率设置为10e-4，训练迭代总次数为60次，总训练时间约为4小时。

Claims

1.一种基于条件生成对抗网络的文本图像超分辨率重建方法，该方法包括以下步骤：

(1)构建训练图像样本数据集，具体方法为：

(1.1)对训练用高分辨率文本图像进行自适应阈值分割，生成与原图像相同尺寸的文本-非文本二值分割图像，其中对应文字的像素值设为1而对应非文字的像素值设为0；

(1.2)在包含RGB三个通道的文本图像的基础上，将二值分割图像作为文本图像的一个额外通道，拼接生成附带分割信息的4通道文本图像；

(1.3)在步骤(1.2)生成的4通道文本图像的基础上，分别对其使用Bicubic进行1/2比例、1/4比例分辨率缩小，生成分辨率逐级以2倍率减少的一组图像；

(1.4)将原始尺寸、1/2比例、1/4比例不同分辨率的文本图像分别切割为相同数量、位置对应、大小分别为n×n、n/2×n/2、n/4×n/4像素的图像块，其中n是原始尺寸图像切割成的图像块的边长；

(1.5)按照超分辨率重建的目标图像比率，选择切割自原始尺寸文本图像和按对应分辨率比例缩小后图像的对应相同位置的两个图像块作为高分辨率/低分辨率图像样本对，以此构成超分辨率重建模型的训练样本数据集；

(2)训练基于条件生成对抗网络的文本图像超分辨率重建模型，具体方法是：

(2.1)构建生成器网络和判别器网络，并结合文本-非文本二值图构造模型损失函数；

(2.2)将步骤(1)得到的训练样本中的低分辨率文本图像作为生成器网络的输入，对应的高分辨率文本图像样本作为生成器网络的预期输出，使用反向传播算法训练生成器网络；

(2.3)将步骤(1)得到的训练样本中的低分辨率文本图像和对应的高分辨率文本图像作为正例图像对，训练样本中的低分辨率文本图像和生成器网络相应输出图像作为反例图像对，使用反向传播算法训练判别器网络；

(2.4)迭代步骤(2.2)和步骤(2.3)，使得生成器在与判别器的对抗训练过程中最终学习得到高分辨率文本图像的样本分布；

(3)将待重建的低分辨率文本图像作为训练得到的文本图像超分辨率重建模型中生成器网络的输入，模型输出的图像即超分辨率重建后的高分辨率文本图像。

2.根据权利要求1所述基于条件生成对抗网络的文本图像超分辨率重建方法，其特征在于生成器网络的结构为：

生成器网络以步骤(1)得到的训练样本中的低分辨率文本图像作为输入，先通过卷积核为3×3的卷积层以及LRelu激活层，再依次通过16个去除BN层的残差块，然后将最后一个残差块的输出特征图与输入第一个残差块的特征图拼接后，输入Inception模块；Inception模块的输出特征图依次经过LRelu激活层、卷积核为3×3的反卷积层和Tanh激活层后，得到最终输出的超分辨率重建后的文本图像。

3.根据权利要求2所述基于条件生成对抗网络的文本图像超分辨率重建方法，其特征在于去除BN层的残差块的结构为：

输入残差块的特征图依次经过卷积核为3×3的卷积层、Relu激活层、卷积核为3×3的卷积层，其结果特征图与输入特征图相加作为残差块的输出。

4.根据权利要求1所述基于条件生成对抗网络的文本图像超分辨率重建方法，其特征在于，判别器网络结构为：

判别器网络以一对“低分辨率文本图像+对应训练高分辨率图像”或“低分辨率文本图像+对应超分辨率重建文本图像”作为输入，输入图像先依次经过卷积核为3×3、卷积步长为2的卷积层和LRelu激活层；接着依次经过卷积核为3×3、卷积步长为2的卷积层、LRelu激活层、BN层和Dropout层；随后依次经过卷积核为3×3的卷积层、LRelu激活层、BN层和Dropout层；最终经过卷积核为3×3的卷积层、Sigmoid激活层后，得到将作为网络输入的高分辨率图像判别为来自训练数据或来自生成器的概率。

5.根据权利要求1所述基于条件生成对抗网络的文本图像超分辨率重建方法，其特征在于，文本图像超分辨率重建模型中的条件生成对抗网络的总损失函数为：

L＝L_cGAN(G,D)+λL_content(G) (1)

其中，G代表生成器，D代表判别器，L_cGAN(G,D)是约束生成器和判别器之间互相对抗的损失函数，L_content(G)是用于约束生成器G进行超分辨率重建后所得结果图像与训练高分辨率图像之间相似性的损失函数，λ为约束两个损失函数比例的超参数；

L_cGAN(G,D)对抗损失计算如下：

其中，E表示数学期望，I代表文本图像，LR,HR分别代表低分辨率和高分辨率，G(I^LR)代表生成器G对低分辨率文本图像I^LR进行超分辨率重建后生成的文本图像；

L_content(G)相似性损失计算如下：

其中，相似性损失L_content(G)进一步包括在图像颜色通道上的聚焦文本区域的L1相似性损失和在二值分割图像通道上的L1相似性损失L1相似性损失指比较的两者在各个维度上的差的绝对值的平均值，λ^(r)和λ^(m)分别代表约束两部分损失相对比例的超参数；两部分损失计算如下：

其中，M代表文本图像I对应的文本-非文本二值分割图像，W代表I和M的宽度，H代表I和M的高度，下标x,y表示I和M中某一像素的坐标，LR,HR分别代表低分辨率和高分辨率，代表高分辨率文本图像在像素(x,y)处的值，代表高分辨率文本-非文本二值分割图像在像素(x,y)处的值，G(I^LR)代表生成器G对低分辨率文本图像I^LR进行超分辨率重建后生成的文本图像，G(M^LR)代表生成器G对低分辨率文本-非文本二值分割图像M^LR进行超分辨率重建后生成的文本-非文本二值分割图像；