CN115797179A - 一种街景中文文本图像超分辨率重建方法 - Google Patents

一种街景中文文本图像超分辨率重建方法 Download PDF

Info

Publication number
CN115797179A
CN115797179A CN202211565455.9A CN202211565455A CN115797179A CN 115797179 A CN115797179 A CN 115797179A CN 202211565455 A CN202211565455 A CN 202211565455A CN 115797179 A CN115797179 A CN 115797179A
Authority
CN
China
Prior art keywords
resolution
image
super
resolution image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211565455.9A
Other languages
English (en)
Inventor
王奔
陆周心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202211565455.9A priority Critical patent/CN115797179A/zh
Publication of CN115797179A publication Critical patent/CN115797179A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种街景中文文本图像超分辨率重建方法,本发明具体为:获取街景中的高分辨率图像并进行不同倍数的下采样得到低分辨率图像,形成数据集;对数据集进行预处理,并提取高分辨率图像边缘图;构建超分辨率网络模型,该模型由特征提取模块、重建模块和边缘检测模块构成;将训练集和验证集送入网络中训练模型,优化并保存最优模型;用得到的最优模型预测低分辨率中文文本图像,得到高分辨率中文文本图像。本发明通过边缘检测模块和梯度先验损失函数对重建过程进行边缘引导,解决了现有技术忽视字体边缘细节的问题;通过引入MobileViT,有效减少计算量和网络模型体积的同时提高重建效果。

Description

一种街景中文文本图像超分辨率重建方法
技术领域
本发明属于图像处理技术领域,涉及一种街景中文文本图像超分辨率重建方法。
背景技术
文字在人类沟通与信息交换过程中起着重要推进作用,自然场景图像中的文本是我们日常生活中重要的信息来源。相比于模糊的低分辨率图像,清晰的高分辨率图像包含了更丰富的视觉信息,提供了更完善的文本信息,可以被人或机器正确识别。然而,在现实生活中,由于一些不可抗因素,低分辨率图像的出现是无法避免的。这个问题不仅造成无法理解文本信息,也严重影响了下游高级任务的性能。因此,提高场景文本图像分辨率,增强其视觉质量是必要的。
图像超分辨率(SISR)是指将一张给定的模糊的低分辨率(LR)图像经过特定的算法恢复成清晰的高分辨率(HR)图像。随着深度学习的迅速发展,图像超分辨率技术在自然场景下得到了很大的提升,与处理自然场景图像的通用超分辨率网络不同,文本图像超分辨率网络更关注文本的边缘特性,有利于文字处理下游任务。
近年来,已经有不少学者基于深度学习研究文本图像超分辨率方法,比如TSRN专门使用不同焦距的相机拍摄真实场景文本图像,提出数据集TextZoom,后续这也成为文本超分辨率任务的常用数据集,遗憾的是,该数据集中的文本是英文的,直接用于中文并不能很好的恢复细节。而Text Gestalt则受格式塔心理学的启发,设计字符的笔划规则,通过转换器(Transformer)构建了笔划聚焦模块引导低分辨率场景文本进行重建,这种方法虽然提高了图像重建效果,但因为增加了一个笔划聚焦模块,使得模型参数量变大,且需要更大的数据集才能防止训练过拟合。此外,目前绝大多数文本超分辨率方法是单纯基于卷积神经网络(CNN)或者视觉转换器(Vision Transformer)的,不能同时有效地提取局部信息和全局信息,难以兼顾细节和字体的高质量重建,尤其是大倍数上采样时。综上,设计一个中文文本图像超分辨率模型是有必要的。
发明内容
本发明的目的就是克服上述现有技术的缺陷,提供一种街景中文文本图像超分辨率重建方法。
具体包括如下步骤:
步骤1:获取街景中的高分辨率图像Ih,并通过双三次插值法,以设定的倍数将高分辨率图像进行降采样,得到低分辨率图像Il,形成数据集;
数据集包括多组图像,每组均包含高分辨率图像以及经过双三次下采样2倍、3倍、4倍的低分辨率图像;根据需求将数据集分为训练集和验证集。
步骤2:对步骤1得到的高分辨率图像Ih和低分辨率图像Il分别进行预处理操作;
预处理操为将训练集和验证集中图像进行随机裁剪或随机旋转,按需调整图像大小。
步骤3:构建超分辨率重建网络模型,该模型包括特征提取模块、重建模块和边缘检测模块;
特征提取模块具体包括:
(1)浅层特征提取:给定低分辨率图像作为输入,使用3×3卷积层提取浅层特征Fs
(2)从浅层特征Fs提取中间特征Fm,中间特征提取包括三级卷积块,卷积块首先依次经过3×3卷积层、批标准化层、SiLU激活函数层提取特征,再依次通过1×1卷积层、批标准化层进行升维。
(3)从中间特征Fm提取深层特征Fd,深层特征提取包括多组依次交替堆叠卷积块和MobileViT模块。MobileViT模块,即移动视觉转换器,它将视觉转换器(VisionTransformer)引入卷积神经网络(CNN),使特征提取模块在具有空间归纳偏差的同时有效地编码局部信息和全局信息。
重建模块采用子像素卷积对特征提取模块提取的特征进行上采样,提高重建图像质量,最终获得超分辨率图像Ir
边缘检测模块采用Canny算法,分别对步骤1中的高分辨率图像Ih和超分辨率图像Ir输入到边缘提取模块,提取得到边缘特征图Ihe和Ire,并计算ihe和Ire的边缘损失函数。
步骤4:将步骤中训练集和验证集输入步骤3搭建的网络模型进行优化训练,得到最优模型;
采用损失函数对步骤3构建的模型进行训练:
损失函数L=α·LMS_SSIM+βl2+λLGP
LMS_SSIM为结构相似性损失函数,用于计算高分辨率图像Ih和超分辨率图像Ir的结构性差距,保留重建图像的高频信息,α为权重系数。
Figure BDA0003985966990000021
其中,M表示不同的尺度,μp、μg分别表示超分辨率图像和高分辨率图像的均值,σp、σg分别表示超分辨率图像和高分辨率图像之间的标准差,σpg表示超分辨率图像和高分辨率图像之间的协方差,βm、γm分别表示两项之间的相对重要性,c1、c2为常数项;
l2为平均平方误差,用于计算高分辨率图像Ih和超分辨率图像Ir的差值,并放大误差,使模型得到更好地优化,β为权重系数。
Figure BDA0003985966990000022
其中,yi为高分辨率图像的像素值,f(xi)为超分辨率图像的像素值,xi为当前图像的像素值,n为样本数量;
LGP为梯度函数,用于计算高分辨率边缘特征图Ihe和超分辨率边缘特征图Ire,使注意力更集中于边缘特征的梯度,锐化边界并优化细节恢复能力,λ为权重系数。
Figure BDA0003985966990000023
(xi∈[x0,x1]);其中,
Figure BDA0003985966990000024
表示HR图像的梯度场,
Figure BDA0003985966990000025
表示SR图像的梯度场,n为样本数量。xi为当前图像的像素值,x0和x1分别为像素值的下限和上限。
步骤5:将任意低分辨率中文文本图像输入步骤4训练得到的最优模型中,输出相应的高分辨率中文文本图像。
与现有技术相比,本发明的显著优点为:本发明的中文文本图像超分辨率方法,引入基于Canny算法的边缘检测模块,并使用梯度先验损失函数对得到的边缘特征图进行反向传播,使训练过程更注重边缘和细节;将MobileViT块作为特征提取网络,有效减少计算量和网络模型体积,并将Vision Transformer引入CNN,使特征提取模块在具有空间归纳偏差的同时有效地捕捉到中文文本的局部信息和全局信息,保证提取的特征是丰富的,提高中文文本超分辨率重建效果。
附图说明
图1为本发明的中文文本超分辨率重建流程图;
图2为本发明的中文文本超分辨率重建网络结构图;
图3为本发明的中文文本超分辨率重建结果(下采样4倍)图;
图4为本发明的中文文本超分辨率重建方法与其他方法的视觉效果对比结果(下采样4倍)图。
具体实施方式
以下结合附图及具体实施步骤对本发明进行详细说明。
如图1所示,一种街景中文文本图像超分辨率重建方法,具体包括如下步骤:
步骤1:获取街景中的高分辨率图像Ih,并通过双三次插值法,以设定倍数将高分辨率图像进行降采样,得到低分辨率图像Il,形成数据集。
具体为:首先收集大量含有中文的场景图像,再从这些场景图像中截取中文,作为高分辨率图像,其大小为144×144。其次,经过双三次算法,对高分辨率图像进行2倍、3倍、4倍下采样,分别得到尺寸为72×72、48×48、36×36的低分辨率图像。整个数据集共有10100组图像,按照8:1:1形成训练集8100组,验证集1000组,测试集1000组,每组均包含高分辨率图像以及不同下采样倍数的低分辨率图像,满足不同放大倍数的需求。
步骤2:对步骤1得到的高分辨率图像Ih和低分辨率图像Il分别进行预处理操作;
具体来说,首先从数据集中随机读取一定数量的图片,该数量由训练时的批量大小(Batch Size)决定。其次将读取的图像进行归一化操作并转为张量(Tensor)变量,针对训练集和验证集,进行随机裁剪和随机旋转,提升模型的泛化能力。
步骤3:构建超分辨率重建网络模型,如图2所示,中文文本超分辨率重建网络的结构图该模型由特征提取模块、重建模块和边缘检测模块构成;
特征提取模块具体实现如下:
(1)浅层特征提取。给定低分辨率图像
Figure BDA0003985966990000031
(H、W和Cin分别是图像的高度、宽度和输入通道数)作为输入。在该部分中,输入通道为3,使用3×3卷积层提取浅层特征Fs,为了保持图像尺寸的不变性,padding设为1,最终输出通道数为16。
(2)中间特征提取。从Fs提取中间特征Fm,由三级卷积块构成,卷积块首先经过3×3卷积层、批标准化层、SiLU激活函数层提取特征,再依次通过1×1卷积层、批标准化层进行升维。在该部分中,第一级输入通道为16,输出通道为32;第二级输入通道为32,输出通道为48;第三级输入通道为48,输出通道为48。
(3)深层特征提取。从Fm提取深层特征Fd,由三级依次交替堆叠卷积块和MobileViT模块构成。其中,MobileViT模块,即移动视觉转换器,它将视觉转换器(VisionTransformer)引入卷积神经网络(CNN)。在该部分中,第一级输入通道数为48,Transformer维度为96,输出通道数为64,深度为3;第二级的输入通道数为64,Transformer维度为120,深度为5,输出通道为80;第三级的输入通道数为80,Transformer维度为144,深度为4,输出通道数为96。
图像重建模块通过子像素卷积将特征图上采样到目标尺寸。为减少计算量,首先通过2个3×3卷积层,逐步将特征图的通道数减少到32,再进行子像素卷积上采样操作,得到超分辨率图像Ir,并将其作为网络的第一返回值。
边缘检测模块主要采用Canny算法,阈值的分别为2.5和5,即在进行非极大值抑制后,当像素点的梯度低于2.5时被抛弃,高于5时则保留,中间值则根据连通性确定是否保留。通过循环对批处理中的所有图片依次进行边缘计算,能够精细的检测到边缘特征图并将边缘特征图Ihe和Ire作为网络的第二、三返回值,用于超分辨率模型训练时计算梯度损失函数,引导文本边缘进行重建。
步骤4:将步骤1得到的数据集中的训练集和验证集送入步骤3搭建的网络中,按调整好的参数进行训练,并保存最优模型;
具体来说,将训练参数设置如下:采用AdamW优化器,初始化学习率为0.00002,200轮时学习率调整为0.000002,Batch Size为48,epoch为300。训练模型时,将步骤1中的Ih与步骤4中的Ir、步骤2中的边缘特征图Ihe和步骤5中的边缘特征图Ire经过损失函数,计算预测图像与原图的差距,并进行反向传播。
训练过程中采用的损失函数L=α·LMS_SSIM+βl2+λLGP;LMS_SSIM为结构相似性损失函数,用于计算高分辨率图像Ih和超分辨率图像Ir的结构性差距,保留重建图像的高频信息,权重α=0.7。
Figure BDA0003985966990000041
其中,M表示不同的尺度,μp、μg分别表示超分辨率图像和高分辨率图像的均值,σp、σg分别表示超分辨率图像和高分辨率图像之间的标准差,σpg表示超分辨率图像和高分辨率图像之间的协方差,
βm、γm分别表示两项之间的相对重要性,c1、c2为常数项。
l2为平均平方误差,用于计算高分辨率图像Ih和超分辨率图像Ir的差值,并放大误差,使模型得到更好地优化,β=0.1。
Figure BDA0003985966990000042
其中,yi为HR图像的像素值,f(xi)为SR图像的像素值,xi为当前图像的像素值,n为样本数量。
LGP为梯度函数,用于计算高分辨率边缘特征图Ihe和超分辨率边缘特征图Ire,使注意力更集中于边缘特征的梯度,锐化边界并优化细节恢复能力,权重λ=0.2。
Figure BDA0003985966990000043
(xi∈[x0,x1]);
Figure BDA0003985966990000044
表示高分辨率图像的梯度场,
Figure BDA0003985966990000045
表示超分辨率图像的梯度场,n为样本数量。xi为当前图像的像素值,x0和x1分别为像素值的下限和上限。
步骤5:将步骤4中得到的最优模型测试低分辨率中文文本图像,即可得到高分辨率中文文本图像,如图3所示为中文文本超分辨率模型的重建结果,可以看到,本发明的中文文本超分辨率模型有良好的视觉提升效果。发明的中文文本超分辨率重建方法与其他方法的指标对比结果如表1所示,可以看出,2倍上采样结果虽略低,但也取得了非常不错的结果,而在更大倍数上采样(3倍和4倍)时,本发明的优势更为明显,远远超出其他三种。
表1
Figure BDA0003985966990000046
如图4所示,以4倍下采样为例,展示了本发明的中文文本超分辨率重建方法与其他方法的视觉效果对比结果,可以观察到,通过本发明的重建方法得到的高分辨率文本图像,其文本的边缘更加流畅,细节处理上优于其他方法。
以上结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种街景中文文本图像超分辨率重建方法,其特征在于:
具体包括如下步骤:
步骤1:获取街景中的高分辨率图像Ih,并通过双三次插值法,以设定的倍数将高分辨率图像进行降采样,得到低分辨率图像Il,形成数据集;根据需求将数据集分为训练集和验证集;
步骤2:对步骤1得到的高分辨率图像Ih和低分辨率图像Il分别进行预处理操作;
步骤3:构建超分辨率重建网络模型,该模型包括特征提取模块、重建模块和边缘检测模块;
特征提取模块具体包括:
(1)浅层特征提取:给定低分辨率图像作为输入,使用3×3卷积层提取浅层特征Fs
(2)从浅层特征Fs提取中间特征Fm,中间特征提取包括三级卷积块,卷积块首先依次经过3×3卷积层、批标准化层、SiLU激活函数层提取特征,再依次通过1×1卷积层、批标准化层进行升维;
(3)从中间特征mm提取深层特征Fd,深层特征提取包括多组依次交替堆叠卷积块和MobileViT模块;MobileViT模将视觉转换器引入卷积神经网络,使特征提取模块在具有空间归纳偏差的同时有效地编码局部信息和全局信息;
重建模块采用子像素卷积对特征提取模块提取的特征进行上采样,最终获得超分辨率图像Ir
边缘检测模块采用Canny算法,分别将步骤1中的高分辨率图像Ih和重建的超分辨率图像Ir输入到边缘提取模块,提取得到边缘特征图Ihe和Ire,并计算Ihe和Ire的边缘损失函数;
步骤4:将步骤中训练集和验证集输入步骤3搭建的网络模型进行优化训练,得到最优模型;
步骤5:将任意低分辨率中文文本图像输入步骤4训练得到的最优模型中,输出相应的高分辨率中文文本图像。
2.如权利要求1所述的街景中文文本图像超分辨率重建方法,其特征在于:步骤1所述的数据集包括多组图像,每组均包含高分辨率图像以及经过双三次下采样2倍、3倍、4倍的低分辨率图像。
3.如权利要求1所述的街景中文文本图像超分辨率重建方法,其特征在于:步骤2所述的预处理操为将训练集和验证集中图像进行随机裁剪或随机旋转,按需调整图像大小。
4.如权利要求1所述的街景中文文本图像超分辨率重建方法,其特征在于:所述的步骤4采用损失函数对步骤3构建的模型进行优化训练:
损失函数L=α·LMS_SSIM+βl2+λLGP;LMS_SSIM为结构相似性损失函数,用于计算高分辨率图像Ih和超分辨率图像Ir的结构性差距,保留重建图像的高频信息,α为权重系数;
Figure FDA0003985966980000011
其中,M表示不同的尺度,μp、μg分别表示超分辨率图像和高分辨率图像的均值,σp、σg分别表示超分辨率图像和高分辨率图像之间的标准差,σpg表示超分辨率图像和高分辨率图像之间的协方差,βm、γm分别表示两项之间的相对重要性,c1、c2为常数项;
l2为平均平方误差,用于计算高分辨率图像Ih和超分辨率图像Ir的差值,并放大误差,使模型得到更好地优化,β为权重系数;
Figure FDA0003985966980000021
其中,yi为高分辨率图像图像的像素值,f(xi)为超分辨率图像的像素值,xi为当前图像的像素值,n为样本数量;
LGP为梯度函数,用于计算高分辨率边缘特征图Ihe和超分辨率边缘特征图Ire,使注意力更集中于边缘特征的梯度,锐化边界并优化细节恢复能力,λ为权重系数;
Figure FDA0003985966980000022
(xi∈[x0,x1]);其中,
Figure FDA0003985966980000023
表示HR图像的梯度场,
Figure FDA0003985966980000024
表示SR图像的梯度场,n为样本数量;xi为当前图像的像素值,x0和x1分别为像素值的下限和上限。
CN202211565455.9A 2022-12-07 2022-12-07 一种街景中文文本图像超分辨率重建方法 Pending CN115797179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211565455.9A CN115797179A (zh) 2022-12-07 2022-12-07 一种街景中文文本图像超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211565455.9A CN115797179A (zh) 2022-12-07 2022-12-07 一种街景中文文本图像超分辨率重建方法

Publications (1)

Publication Number Publication Date
CN115797179A true CN115797179A (zh) 2023-03-14

Family

ID=85417660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211565455.9A Pending CN115797179A (zh) 2022-12-07 2022-12-07 一种街景中文文本图像超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN115797179A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611995A (zh) * 2023-04-06 2023-08-18 江苏大学 一种基于深度展开网络的手写文本图像超分辨率重建方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611995A (zh) * 2023-04-06 2023-08-18 江苏大学 一种基于深度展开网络的手写文本图像超分辨率重建方法

Similar Documents

Publication Publication Date Title
CN109410239B (zh) 一种基于条件生成对抗网络的文本图像超分辨率重建方法
CN113362223B (zh) 基于注意力机制和双通道网络的图像超分辨率重建方法
CN109726657B (zh) 一种深度学习场景文本序列识别方法
DE102021211682A1 (de) Verfahren und system zur multidirektionalen erkennung von szenentexten basierend auf einem multielement-aufmerksamkeitsmechanismus
Peyrard et al. ICDAR2015 competition on text image super-resolution
CN105678293A (zh) 一种基于cnn-rnn的复杂图像字序列识别方法
CN110223304B (zh) 一种基于多路径聚合的图像分割方法、装置和计算机可读存储介质
CN114419449A (zh) 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN110992374A (zh) 一种基于深度学习的头发精细化分割方法及系统
CN113052775B (zh) 一种图像去阴影方法及装置
CN115797179A (zh) 一种街景中文文本图像超分辨率重建方法
CN112419174A (zh) 基于门循环单元的图像文字去除方法、系统及装置
CN113591831A (zh) 一种基于深度学习的字体识别方法、系统及存储介质
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN114612306A (zh) 一种面向裂缝检测的深度学习超分辨率方法
CN103020940A (zh) 一种基于局部特征转换的人脸超分辨率重建方法
Wu et al. Lightweight asymmetric convolutional distillation network for single image super-resolution
CN114495119A (zh) 一种复杂场景下的实时不规则文本识别方法
CN113436198A (zh) 一种协同图像超分辨率重建的遥感图像语义分割方法
CN116703725A (zh) 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法
JP4801998B2 (ja) 多値文字辞書生成装置
Boutarfass et al. Convolutional autoencoder for discriminating handwriting styles
CN112418229A (zh) 一种基于深度学习的无人船海上场景图像实时分割方法
CN116468083A (zh) 一种基于Transformer的生成对抗网络方法
CN116485654A (zh) 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination