CN110415176A - 一种文本图像超分辨率方法 - Google Patents

一种文本图像超分辨率方法 Download PDF

Info

Publication number
CN110415176A
CN110415176A CN201910732571.7A CN201910732571A CN110415176A CN 110415176 A CN110415176 A CN 110415176A CN 201910732571 A CN201910732571 A CN 201910732571A CN 110415176 A CN110415176 A CN 110415176A
Authority
CN
China
Prior art keywords
resolution
super
layer
image
text image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910732571.7A
Other languages
English (en)
Inventor
李革
林凯
李宏
刘珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201910732571.7A priority Critical patent/CN110415176A/zh
Publication of CN110415176A publication Critical patent/CN110415176A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提供了一种文本图像超分辨率方法,包括:先使用深度抠图技术将低分辨率图像分解成前景图层、背景图层、alpha图层;然后,对于alpha图层,先用Teager滤波对其进行预处理,再将其送入深度空域特征转换生成对抗网络(SFTGAN)进行超分辨率操作;对于前景图层和背景图层,将其直接送入增强超分生成对抗网络(ESRGAN)进行超分辨率操作;最后,将三层超分后得到得高分辨率图像进行融合,即得到高清图像。本发明的文本图像超分辨率方法,对于低分辨率文本图像,能够较好的将其转化成高分辨率图像,可以作为图像预处理中的超分辨率过程应用到多种机器视觉领域。

Description

一种文本图像超分辨率方法
技术领域
本发明涉及图像处理领域,具体地涉及一种文本图像超分辨率算法,尤其是使用抠图预处理和文本信息监督的文本图像超分辨率方法。
背景技术
图像超分辨率是图像预处理的重要环节,其对于医疗、航空航天、对象识别等领域有重要的影响。现有的针对图像超分辨率的方法主要针对的是自然图像。由于这类方法没有考虑到文本图像的特性(有较多高频信息),因此其对文本图像的超分辨率效果不好。现有的少数针对文本图像超分辨率方法主要分为两类:基于先验的传统方法、基于深度学习的方法。
1.基于先验的传统方法:此类方法基于先验:文本图像包含两个区域:文本区域和背景区域。之后再基于全变分损失框架进行超分辨率操作。此类方法的缺点是输出的高分辨率图像文字边缘不够锐利,且有糊影。
2.基于深度学习的方法:该类方法先通过边缘检测算法检测出图像边缘,之后对边缘(高频位置)施加更大的损失权重。整体的神经网络仍沿用针对自然图像处理的网络结构。此类方法的问题是对于较低分辨率的图像,施行超分辨后,高分辨率的图像中的部分字符对比原低分辨率图像中的字符出现变形或错误(例如从“e”变成“c”)。
综合来看,现有的针对文字图像超分辨率的方法由于受限于先验信息的不完全合理与局限性,造成这些方法的超分辨率结果中文字边缘不够锐利以及有糊影。同时,基于深度学习的方法存在输出图像字符变形或错误的问题。
发明内容
本发明的目的在于提供一种使用抠图预处理和文本信息监督的文本图像超分辨率方法。
实现本发明目的的技术方案是:
本发明的文本图像超分辨率方法是一种基于深度学习的方法,本发明的方法包括三个步骤:(1)对低分辨率图像抠图,将其分解成前景图层、背景图层和alpha图层;(2)对所述前景图层、所述背景图层和所述alpha图层分别施行超分辨操作;(3)用文本信息监督信息,优化更新网络参数。
优选的,在上述文本图像超分辨率方法中,所述步骤(1)包括:对于输入的低分辨率图像,使用深度抠图技术,将所述低分辨率图像分成所述前景图层、所述背景图层和所述alpha图层。
优选的,在上述文本图像超分辨率方法中,所述步(2)包括:通过超分辨率网络施行所述超分辨操作。
优选的,在上述文本图像超分辨率方法中,所述超分辨率网络为深度空域特征转换生成对抗网络(SFTGAN)和增强超分生成对抗网络(ESRGAN),对于所述alpha图层,先使用Teager滤波对其进行预处理以增强边缘,再送入所述深度空域特征转换生成对抗网络(SFTGAN)进行超分辨率处理;对于所述前景图层和所述背景图层,直接送入所述增强超分生成对抗网络(ESRGAN)进行超分辨率处理;最后,对于网络输出的三张高清图像进行逆向抠图融合,即得到最终高清结果图像。
优选的,在上述文本图像超分辨率方法中,所述步骤(3)包括:在训练过程中,对于步骤(2)中得到的所述高清结果图像,对其用光学字符识别(OCR)进行识别,将识别结果与字符标签进行比对,对于比对结果不同的每个字符,均向损失函数添加一定的损失值;最后,将此损失值回传到步骤(2)中的所述两个超分辨率网络进行权重更新。
优选的,在上述文本图像超分辨率方法中,在对步骤(2)中得到的所述高清结果图像进行识别之前,首先使用图像字符分割网络将所述高清结果图像分割剪切成多张单字符子图片,然后,对每张单字符子图片使用字符识别技术进行识别。
优选的,在上述文本图像超分辨率方法中,向损失函数添加0.5的损失值。
本发明的有益效果:
本发明的文本图像超分辨率方法,对于低分辨率文本图像,能够较好的将其转化成高分辨率图像,可以作为图像预处理中的超分辨率过程应用到多种机器视觉领域。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明方法的神经网络结构图。
图2a为测试对比图一中的原始高分辨率图像;
图2b为测试对比图一中的四倍下采样的低分辨率图像;
图2c为测试对比图一中的增强超分生成对抗网络(ESRGAN)方法的超分辨率结果;
图2d为测试对比图一中的本发明方法的超分辨率结果;
图3a为测试对比图二中的原始高分辨率图像;
图3b为测试对比图二中的四倍下采样的低分辨率图像;
图3c为测试对比图二中的增强超分生成对抗网络(ESRGAN)方法的超分辨率结果;
图3d为测试对比图二中的本发明方法的超分辨率结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明的文本图像超分辨率方法先使用深度抠图技术将低分辨率图像分解成前景图层、背景图层、alpha图层。之后,将三层分别进行超分辨操作。而后,将三层超分后得到得高分辨率图像进行融合,即得到高清图像。在网络训练过程中,使用文字图像所对应的文字信息作为额外的监督:对于高清图像的每个字符,分别进行OCR识别,再使识别的结果与对应的文字信息进行比对,若不相等,则加入损失函数,回传更新之前的超分辨率网络。
图1为本发明方法的神经网络结构图。以下结合图1对本发明的文本图像超分辨率方法进行详细说明。
在本发明实施例中,提供的文本图像超分辨率方法,包括以下步骤(如图1所示):
1.对低分辨率图像抠图。通过深度抠图将低分辨率图像分解成前景图层、背景图层、alpha图层。本发明使用自建的文本图像训练集,重新训练了谷歌的深度抠图网络模型。之后,对于每一张输入的待处理超分辨率的图像,先将其输入深度抠图网络,网络将输出与输入图像等大的前景图层、背景图层以及alpha图层。其中,前景图层与背景图层主要包含图像的颜色信息与极少的边缘信息,alpha图层包含大部分的高频边缘信息。
2.对前景图层、背景图层、alpha图层分别施行超分辨操作。超分辨率网络共有两个分支(分支一和分支二,如图1所示)。在送入网络之前,对于alpha图层,先使用Teager滤波对其进行预处理以增强边缘。由于增强超分生成对抗网络(Enhanced Super-ResolutionGenerative Adversarial Networks,ESRGAN)能更好的保留颜色信息,因此对于分支一(即对前景图层与背景图层进行超分辨率的分路),选用ESRGAN的网络结构。由于深度空域特征转换生成对抗网络(Deep Spatial Feature Transform Generative AdversarialNetworks,SFTGAN)对于高频信息有更好的处理能力,因此选用SFTGAN作为分支二(即对alpha图层进行超分辨率的分路)的网络结构。对三层分别实施超分辨率操作后,进行逆向抠图融合,输出即可得最终高清的超分辨率结果,即最终高分辨率图。在本发明中实施实例中,选用4倍超分辨率为例。
3.使用文本信息监督信息,优化更新网络参数。由于部分输入的图像分辨率过低,导致在进行超分辨操作后,字符可能出现错乱(例如在输入的低分辨率中某字符为“e”,而在超分辨率结果中却变为“c”)。为了矫正此问题,对于步骤2输出的超分辨率结果,首先使用图像字符分割网络将其分割剪切成多张单字符子图片。其后,对每张单字符子图片使用字符识别技术(本发明使用Tersert算法)进行识别(即,对每个字符进行操作),并将识别结果与字符标签进行对比,若相等,则不做处理;如不等,则向损失值累加入0.5。当所有字符识别比较完成后,将累加的损失值回传至超分辨率网络(ESRGAN和SFTGAN),更新网络。
在公开数据集上进行四倍超分辨测试。图2a~2d为测试对比图一,为此用例测试四倍超分辨率。其中,图2a为测试对比图一中的原始高分辨率图像,图2b为测试对比图一中的四倍下采样的低分辨率图像,图2c为测试对比图一中的ESRGAN方法的超分辨率结果,图2d为测试对比图一中的本发明方法的超分辨率结果。可以看到,本发明的方法相对目前最优的超分辨方法能更好的保留高频边缘与细节。图像来源:文档分析与识别会议(International conference on Document Analysis and Recognition,ICDAR)2015数据集。
图3a~3d为测试对比图二,此例测试四倍超分辨率。其中,图3a为测试对比图二中的原始高分辨率图像,图3b为测试对比图二中的四倍下采样的低分辨率图像,图3c为测试对比图二中的ESRGAN方法的超分辨率结果,图3d为测试对比图二中的本发明方法的超分辨率结果。由于本方法先对输入图像进行抠图,而后对前景背景分别进行增强、超分,相比于直接增强超分的方法,可以看到,本发明的方法相能更好的保留文字边缘高频边缘与细节,同时减少模糊影响。图像来源:ICDAR2015数据集。
本发明的文本图像超分辨率方法,对于低分辨率文本图像,能够较好的将其转化成高分辨率图像,可以作为图像预处理中的超分辨率过程应用到多种机器视觉领域。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (7)

1.一种文本图像超分辨率方法,包括以下步骤:
(1)对低分辨率图像抠图,将其分解成前景图层、背景图层和alpha图层;
(2)对所述前景图层、所述背景图层和所述alpha图层分别施行超分辨操作;
(3)用文本信息监督信息,优化更新网络参数。
2.根据权利要求1所述的文本图像超分辨率方法,其特征在于,所述步骤(1)包括:对于输入的低分辨率图像,使用深度抠图技术,将所述低分辨率图像分成所述前景图层、所述背景图层和所述alpha图层。
3.根据权利要求1所述的文本图像超分辨率方法,其特征在于,所述步(2)包括:通过超分辨率网络施行所述超分辨操作。
4.根据权利要求3所述的文本图像超分辨率方法,其特征在于,所述超分辨率网络为深度空域特征转换生成对抗网络(SFTGAN)和增强超分生成对抗网络(ESRGAN),对于所述alpha图层,先使用Teager滤波对其进行预处理以增强边缘,再送入所述深度空域特征转换生成对抗网络(SFTGAN)进行超分辨率处理;对于所述前景图层和所述背景图层,直接送入所述增强超分生成对抗网络(ESRGAN)进行超分辨率处理;最后,对于网络输出的三张高清图像进行逆向抠图融合,即得到最终高清结果图像。
5.根据权利要求3所述的文本图像的超分辨率方法,其特征在于,所述步骤(3)包括:在训练过程中,对于步骤(2)中得到的所述高清结果图像,对其用光学字符识别(OCR)进行识别,将识别结果与字符标签进行比对,对于比对结果不同的每个字符,均向损失函数添加一定的损失值;最后,将此损失值回传到步骤(2)中的所述两个超分辨率网络进行权重更新。
6.根据权利要求5所述的文本图像的超分辨率方法,其特征在于,在对步骤(2)中得到的所述高清结果图像进行识别之前,首先使用图像字符分割网络将所述高清结果图像分割剪切成多张单字符子图片,然后,对每张单字符子图片使用字符识别技术进行识别。
7.根据权利要求5所述的文本图像的超分辨率方法,其特征在于,向损失函数添加0.5的损失值。
CN201910732571.7A 2019-08-09 2019-08-09 一种文本图像超分辨率方法 Pending CN110415176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910732571.7A CN110415176A (zh) 2019-08-09 2019-08-09 一种文本图像超分辨率方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910732571.7A CN110415176A (zh) 2019-08-09 2019-08-09 一种文本图像超分辨率方法

Publications (1)

Publication Number Publication Date
CN110415176A true CN110415176A (zh) 2019-11-05

Family

ID=68366669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910732571.7A Pending CN110415176A (zh) 2019-08-09 2019-08-09 一种文本图像超分辨率方法

Country Status (1)

Country Link
CN (1) CN110415176A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717555A (zh) * 2019-12-12 2020-01-21 江苏联著实业股份有限公司 一种基于自然语言和生成对抗网络的图片生成系统及装置
CN111080528A (zh) * 2019-12-20 2020-04-28 北京金山云网络技术有限公司 图像超分辨率和模型训练方法、装置、电子设备及介质
CN111080527A (zh) * 2019-12-20 2020-04-28 北京金山云网络技术有限公司 一种图像超分辨率的方法、装置、电子设备及存储介质
CN112288737A (zh) * 2020-11-18 2021-01-29 中国人民解放军国防科技大学 一种基于超分辨率图像的舷号检测方法
CN113674144A (zh) * 2020-05-14 2021-11-19 Tcl科技集团股份有限公司 一种图像处理方法、终端设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110037894A1 (en) * 2009-08-11 2011-02-17 Google Inc. Enhanced image and video super-resolution processing
CN102842119A (zh) * 2012-08-18 2012-12-26 湖南大学 一种基于抠像和边缘增强的快速文本图像超分辨率方法
CN109087243A (zh) * 2018-06-29 2018-12-25 中山大学 一种基于深度卷积生成对抗网络的视频超分辨率生成方法
CN109410239A (zh) * 2018-11-07 2019-03-01 南京大学 一种基于条件生成对抗网络的文本图像超分辨率重建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110037894A1 (en) * 2009-08-11 2011-02-17 Google Inc. Enhanced image and video super-resolution processing
CN102842119A (zh) * 2012-08-18 2012-12-26 湖南大学 一种基于抠像和边缘增强的快速文本图像超分辨率方法
CN109087243A (zh) * 2018-06-29 2018-12-25 中山大学 一种基于深度卷积生成对抗网络的视频超分辨率生成方法
CN109410239A (zh) * 2018-11-07 2019-03-01 南京大学 一种基于条件生成对抗网络的文本图像超分辨率重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张万绪等: ""基于稀疏表示与引导滤波的图像超分辨率重建"", 《计算机工程》 *
张鹏: "文本图像超分辨率算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717555A (zh) * 2019-12-12 2020-01-21 江苏联著实业股份有限公司 一种基于自然语言和生成对抗网络的图片生成系统及装置
CN111080528A (zh) * 2019-12-20 2020-04-28 北京金山云网络技术有限公司 图像超分辨率和模型训练方法、装置、电子设备及介质
CN111080527A (zh) * 2019-12-20 2020-04-28 北京金山云网络技术有限公司 一种图像超分辨率的方法、装置、电子设备及存储介质
CN111080528B (zh) * 2019-12-20 2023-11-07 北京金山云网络技术有限公司 图像超分辨率和模型训练方法、装置、电子设备及介质
CN111080527B (zh) * 2019-12-20 2023-12-05 北京金山云网络技术有限公司 一种图像超分辨率的方法、装置、电子设备及存储介质
CN113674144A (zh) * 2020-05-14 2021-11-19 Tcl科技集团股份有限公司 一种图像处理方法、终端设备及可读存储介质
CN112288737A (zh) * 2020-11-18 2021-01-29 中国人民解放军国防科技大学 一种基于超分辨率图像的舷号检测方法

Similar Documents

Publication Publication Date Title
CN110415176A (zh) 一种文本图像超分辨率方法
JP7379787B2 (ja) フィーチャーピラミッドを融合した敵対的生成ネットワークによる画像ヘイズ除去方法
CN111062872B (zh) 一种基于边缘检测的图像超分辨率重建方法及系统
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN106339998A (zh) 基于对比度金字塔变换的多聚焦图像融合方法
CN110276721A (zh) 基于级联残差卷积神经网络的图像超分辨率重建方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN107749052A (zh) 基于深度学习神经网络的图像去雾方法及系统
CN109146989B (zh) 一种通过搭建神经网络生成花鸟艺术字图像的方法
CN110473142B (zh) 基于深度学习的单幅图像超分辨率重建方法
CN106503661B (zh) 基于烟花深度信念网络的人脸性别识别方法
CN110033417A (zh) 一种基于深度学习的图像增强方法
CN109949222A (zh) 基于语义图的图像超分辨率重建方法
CN115240195A (zh) 一种药瓶缺陷自动检测方法、装置及存储介质
EP4075373A1 (en) Image processing method and apparatus
CN111597978B (zh) 基于StarGAN网络模型实现行人重识别图片自动生成的方法
Pan et al. FDPPGAN: remote sensing image fusion based on deep perceptual patchGAN
CN116912680A (zh) Sar舰船识别跨模态域迁移学习、识别方法及系统
Gao et al. Fusion-UDCGAN: Multifocus image fusion via a U-type densely connected generation adversarial network
Jo et al. Multi-scale selective residual learning for non-homogeneous dehazing
CN108009549A (zh) 一种迭代协同显著性检测方法
CN113628129A (zh) 一种基于半监督学习的边缘注意力对单幅图像阴影去除方法
CN116485652B (zh) 遥感影像车辆目标检测的超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191105

WD01 Invention patent application deemed withdrawn after publication