CN110415176A

CN110415176A - 一种文本图像超分辨率方法

Info

Publication number: CN110415176A
Application number: CN201910732571.7A
Authority: CN
Inventors: 李革; 林凯; 李宏; 刘珊
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-05

Abstract

本发明提供了一种文本图像超分辨率方法，包括：先使用深度抠图技术将低分辨率图像分解成前景图层、背景图层、alpha图层；然后，对于alpha图层，先用Teager滤波对其进行预处理，再将其送入深度空域特征转换生成对抗网络(SFTGAN)进行超分辨率操作；对于前景图层和背景图层，将其直接送入增强超分生成对抗网络(ESRGAN)进行超分辨率操作；最后，将三层超分后得到得高分辨率图像进行融合，即得到高清图像。本发明的文本图像超分辨率方法，对于低分辨率文本图像，能够较好的将其转化成高分辨率图像，可以作为图像预处理中的超分辨率过程应用到多种机器视觉领域。

Description

一种文本图像超分辨率方法

技术领域

本发明涉及图像处理领域，具体地涉及一种文本图像超分辨率算法，尤其是使用抠图预处理和文本信息监督的文本图像超分辨率方法。

背景技术

图像超分辨率是图像预处理的重要环节，其对于医疗、航空航天、对象识别等领域有重要的影响。现有的针对图像超分辨率的方法主要针对的是自然图像。由于这类方法没有考虑到文本图像的特性(有较多高频信息)，因此其对文本图像的超分辨率效果不好。现有的少数针对文本图像超分辨率方法主要分为两类：基于先验的传统方法、基于深度学习的方法。

1.基于先验的传统方法：此类方法基于先验：文本图像包含两个区域：文本区域和背景区域。之后再基于全变分损失框架进行超分辨率操作。此类方法的缺点是输出的高分辨率图像文字边缘不够锐利，且有糊影。

2.基于深度学习的方法：该类方法先通过边缘检测算法检测出图像边缘，之后对边缘(高频位置)施加更大的损失权重。整体的神经网络仍沿用针对自然图像处理的网络结构。此类方法的问题是对于较低分辨率的图像，施行超分辨后，高分辨率的图像中的部分字符对比原低分辨率图像中的字符出现变形或错误(例如从“e”变成“c”)。

综合来看，现有的针对文字图像超分辨率的方法由于受限于先验信息的不完全合理与局限性，造成这些方法的超分辨率结果中文字边缘不够锐利以及有糊影。同时，基于深度学习的方法存在输出图像字符变形或错误的问题。

发明内容

本发明的目的在于提供一种使用抠图预处理和文本信息监督的文本图像超分辨率方法。

实现本发明目的的技术方案是：

本发明的文本图像超分辨率方法是一种基于深度学习的方法，本发明的方法包括三个步骤：(1)对低分辨率图像抠图，将其分解成前景图层、背景图层和alpha图层；(2)对所述前景图层、所述背景图层和所述alpha图层分别施行超分辨操作；(3)用文本信息监督信息，优化更新网络参数。

优选的，在上述文本图像超分辨率方法中，所述步骤(1)包括：对于输入的低分辨率图像，使用深度抠图技术，将所述低分辨率图像分成所述前景图层、所述背景图层和所述alpha图层。

优选的，在上述文本图像超分辨率方法中，所述步(2)包括：通过超分辨率网络施行所述超分辨操作。

优选的，在上述文本图像超分辨率方法中，所述超分辨率网络为深度空域特征转换生成对抗网络(SFTGAN)和增强超分生成对抗网络(ESRGAN)，对于所述alpha图层，先使用Teager滤波对其进行预处理以增强边缘，再送入所述深度空域特征转换生成对抗网络(SFTGAN)进行超分辨率处理；对于所述前景图层和所述背景图层，直接送入所述增强超分生成对抗网络(ESRGAN)进行超分辨率处理；最后，对于网络输出的三张高清图像进行逆向抠图融合，即得到最终高清结果图像。

优选的，在上述文本图像超分辨率方法中，所述步骤(3)包括：在训练过程中，对于步骤(2)中得到的所述高清结果图像，对其用光学字符识别(OCR)进行识别，将识别结果与字符标签进行比对，对于比对结果不同的每个字符，均向损失函数添加一定的损失值；最后，将此损失值回传到步骤(2)中的所述两个超分辨率网络进行权重更新。

优选的，在上述文本图像超分辨率方法中，在对步骤(2)中得到的所述高清结果图像进行识别之前，首先使用图像字符分割网络将所述高清结果图像分割剪切成多张单字符子图片，然后，对每张单字符子图片使用字符识别技术进行识别。

优选的，在上述文本图像超分辨率方法中，向损失函数添加0.5的损失值。

本发明的有益效果：

本发明的文本图像超分辨率方法，对于低分辨率文本图像，能够较好的将其转化成高分辨率图像，可以作为图像预处理中的超分辨率过程应用到多种机器视觉领域。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明方法的神经网络结构图。

图2a为测试对比图一中的原始高分辨率图像；

图2b为测试对比图一中的四倍下采样的低分辨率图像；

图2c为测试对比图一中的增强超分生成对抗网络(ESRGAN)方法的超分辨率结果；

图2d为测试对比图一中的本发明方法的超分辨率结果；

图3a为测试对比图二中的原始高分辨率图像；

图3b为测试对比图二中的四倍下采样的低分辨率图像；

图3c为测试对比图二中的增强超分生成对抗网络(ESRGAN)方法的超分辨率结果；

图3d为测试对比图二中的本发明方法的超分辨率结果。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明的文本图像超分辨率方法先使用深度抠图技术将低分辨率图像分解成前景图层、背景图层、alpha图层。之后，将三层分别进行超分辨操作。而后，将三层超分后得到得高分辨率图像进行融合，即得到高清图像。在网络训练过程中，使用文字图像所对应的文字信息作为额外的监督：对于高清图像的每个字符，分别进行OCR识别，再使识别的结果与对应的文字信息进行比对，若不相等，则加入损失函数，回传更新之前的超分辨率网络。

图1为本发明方法的神经网络结构图。以下结合图1对本发明的文本图像超分辨率方法进行详细说明。

在本发明实施例中，提供的文本图像超分辨率方法，包括以下步骤(如图1所示)：

1.对低分辨率图像抠图。通过深度抠图将低分辨率图像分解成前景图层、背景图层、alpha图层。本发明使用自建的文本图像训练集，重新训练了谷歌的深度抠图网络模型。之后，对于每一张输入的待处理超分辨率的图像，先将其输入深度抠图网络，网络将输出与输入图像等大的前景图层、背景图层以及alpha图层。其中，前景图层与背景图层主要包含图像的颜色信息与极少的边缘信息，alpha图层包含大部分的高频边缘信息。

2.对前景图层、背景图层、alpha图层分别施行超分辨操作。超分辨率网络共有两个分支(分支一和分支二，如图1所示)。在送入网络之前，对于alpha图层，先使用Teager滤波对其进行预处理以增强边缘。由于增强超分生成对抗网络(Enhanced Super-ResolutionGenerative Adversarial Networks，ESRGAN)能更好的保留颜色信息，因此对于分支一(即对前景图层与背景图层进行超分辨率的分路)，选用ESRGAN的网络结构。由于深度空域特征转换生成对抗网络(Deep Spatial Feature Transform Generative AdversarialNetworks，SFTGAN)对于高频信息有更好的处理能力，因此选用SFTGAN作为分支二(即对alpha图层进行超分辨率的分路)的网络结构。对三层分别实施超分辨率操作后，进行逆向抠图融合，输出即可得最终高清的超分辨率结果，即最终高分辨率图。在本发明中实施实例中，选用4倍超分辨率为例。

3.使用文本信息监督信息，优化更新网络参数。由于部分输入的图像分辨率过低，导致在进行超分辨操作后，字符可能出现错乱(例如在输入的低分辨率中某字符为“e”，而在超分辨率结果中却变为“c”)。为了矫正此问题，对于步骤2输出的超分辨率结果，首先使用图像字符分割网络将其分割剪切成多张单字符子图片。其后，对每张单字符子图片使用字符识别技术(本发明使用Tersert算法)进行识别(即，对每个字符进行操作)，并将识别结果与字符标签进行对比，若相等，则不做处理；如不等，则向损失值累加入0.5。当所有字符识别比较完成后，将累加的损失值回传至超分辨率网络(ESRGAN和SFTGAN)，更新网络。

在公开数据集上进行四倍超分辨测试。图2a～2d为测试对比图一，为此用例测试四倍超分辨率。其中，图2a为测试对比图一中的原始高分辨率图像，图2b为测试对比图一中的四倍下采样的低分辨率图像，图2c为测试对比图一中的ESRGAN方法的超分辨率结果，图2d为测试对比图一中的本发明方法的超分辨率结果。可以看到，本发明的方法相对目前最优的超分辨方法能更好的保留高频边缘与细节。图像来源：文档分析与识别会议(International conference on Document Analysis and Recognition，ICDAR)2015数据集。

图3a～3d为测试对比图二，此例测试四倍超分辨率。其中，图3a为测试对比图二中的原始高分辨率图像，图3b为测试对比图二中的四倍下采样的低分辨率图像，图3c为测试对比图二中的ESRGAN方法的超分辨率结果，图3d为测试对比图二中的本发明方法的超分辨率结果。由于本方法先对输入图像进行抠图，而后对前景背景分别进行增强、超分，相比于直接增强超分的方法，可以看到，本发明的方法相能更好的保留文字边缘高频边缘与细节，同时减少模糊影响。图像来源：ICDAR2015数据集。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种文本图像超分辨率方法，包括以下步骤：

(1)对低分辨率图像抠图，将其分解成前景图层、背景图层和alpha图层；

(2)对所述前景图层、所述背景图层和所述alpha图层分别施行超分辨操作；

(3)用文本信息监督信息，优化更新网络参数。

2.根据权利要求1所述的文本图像超分辨率方法，其特征在于，所述步骤(1)包括：对于输入的低分辨率图像，使用深度抠图技术，将所述低分辨率图像分成所述前景图层、所述背景图层和所述alpha图层。

3.根据权利要求1所述的文本图像超分辨率方法，其特征在于，所述步(2)包括：通过超分辨率网络施行所述超分辨操作。

4.根据权利要求3所述的文本图像超分辨率方法，其特征在于，所述超分辨率网络为深度空域特征转换生成对抗网络(SFTGAN)和增强超分生成对抗网络(ESRGAN)，对于所述alpha图层，先使用Teager滤波对其进行预处理以增强边缘，再送入所述深度空域特征转换生成对抗网络(SFTGAN)进行超分辨率处理；对于所述前景图层和所述背景图层，直接送入所述增强超分生成对抗网络(ESRGAN)进行超分辨率处理；最后，对于网络输出的三张高清图像进行逆向抠图融合，即得到最终高清结果图像。

5.根据权利要求3所述的文本图像的超分辨率方法，其特征在于，所述步骤(3)包括：在训练过程中，对于步骤(2)中得到的所述高清结果图像，对其用光学字符识别(OCR)进行识别，将识别结果与字符标签进行比对，对于比对结果不同的每个字符，均向损失函数添加一定的损失值；最后，将此损失值回传到步骤(2)中的所述两个超分辨率网络进行权重更新。

6.根据权利要求5所述的文本图像的超分辨率方法，其特征在于，在对步骤(2)中得到的所述高清结果图像进行识别之前，首先使用图像字符分割网络将所述高清结果图像分割剪切成多张单字符子图片，然后，对每张单字符子图片使用字符识别技术进行识别。

7.根据权利要求5所述的文本图像的超分辨率方法，其特征在于，向损失函数添加0.5的损失值。