CN115797179A

CN115797179A - 一种街景中文文本图像超分辨率重建方法

Info

Publication number: CN115797179A
Application number: CN202211565455.9A
Authority: CN
Inventors: 王奔; 陆周心
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-03-14

Abstract

本发明公开了一种街景中文文本图像超分辨率重建方法，本发明具体为：获取街景中的高分辨率图像并进行不同倍数的下采样得到低分辨率图像，形成数据集；对数据集进行预处理，并提取高分辨率图像边缘图；构建超分辨率网络模型，该模型由特征提取模块、重建模块和边缘检测模块构成；将训练集和验证集送入网络中训练模型，优化并保存最优模型；用得到的最优模型预测低分辨率中文文本图像，得到高分辨率中文文本图像。本发明通过边缘检测模块和梯度先验损失函数对重建过程进行边缘引导，解决了现有技术忽视字体边缘细节的问题；通过引入MobileViT，有效减少计算量和网络模型体积的同时提高重建效果。

Description

一种街景中文文本图像超分辨率重建方法

技术领域

本发明属于图像处理技术领域，涉及一种街景中文文本图像超分辨率重建方法。

背景技术

文字在人类沟通与信息交换过程中起着重要推进作用，自然场景图像中的文本是我们日常生活中重要的信息来源。相比于模糊的低分辨率图像，清晰的高分辨率图像包含了更丰富的视觉信息，提供了更完善的文本信息，可以被人或机器正确识别。然而，在现实生活中，由于一些不可抗因素，低分辨率图像的出现是无法避免的。这个问题不仅造成无法理解文本信息，也严重影响了下游高级任务的性能。因此，提高场景文本图像分辨率，增强其视觉质量是必要的。

图像超分辨率(SISR)是指将一张给定的模糊的低分辨率(LR)图像经过特定的算法恢复成清晰的高分辨率(HR)图像。随着深度学习的迅速发展，图像超分辨率技术在自然场景下得到了很大的提升，与处理自然场景图像的通用超分辨率网络不同，文本图像超分辨率网络更关注文本的边缘特性，有利于文字处理下游任务。

近年来，已经有不少学者基于深度学习研究文本图像超分辨率方法，比如TSRN专门使用不同焦距的相机拍摄真实场景文本图像，提出数据集TextZoom，后续这也成为文本超分辨率任务的常用数据集，遗憾的是，该数据集中的文本是英文的，直接用于中文并不能很好的恢复细节。而Text Gestalt则受格式塔心理学的启发，设计字符的笔划规则，通过转换器(Transformer)构建了笔划聚焦模块引导低分辨率场景文本进行重建，这种方法虽然提高了图像重建效果，但因为增加了一个笔划聚焦模块，使得模型参数量变大，且需要更大的数据集才能防止训练过拟合。此外，目前绝大多数文本超分辨率方法是单纯基于卷积神经网络(CNN)或者视觉转换器(Vision Transformer)的，不能同时有效地提取局部信息和全局信息，难以兼顾细节和字体的高质量重建，尤其是大倍数上采样时。综上，设计一个中文文本图像超分辨率模型是有必要的。

发明内容

本发明的目的就是克服上述现有技术的缺陷，提供一种街景中文文本图像超分辨率重建方法。

具体包括如下步骤：

步骤1：获取街景中的高分辨率图像I_h，并通过双三次插值法，以设定的倍数将高分辨率图像进行降采样，得到低分辨率图像I_l，形成数据集；

数据集包括多组图像，每组均包含高分辨率图像以及经过双三次下采样2倍、3倍、4倍的低分辨率图像；根据需求将数据集分为训练集和验证集。

步骤2：对步骤1得到的高分辨率图像I_h和低分辨率图像I_l分别进行预处理操作；

预处理操为将训练集和验证集中图像进行随机裁剪或随机旋转，按需调整图像大小。

步骤3：构建超分辨率重建网络模型，该模型包括特征提取模块、重建模块和边缘检测模块；

特征提取模块具体包括：

(1)浅层特征提取：给定低分辨率图像作为输入，使用3×3卷积层提取浅层特征F_s。

(2)从浅层特征F_s提取中间特征F_m，中间特征提取包括三级卷积块，卷积块首先依次经过3×3卷积层、批标准化层、SiLU激活函数层提取特征，再依次通过1×1卷积层、批标准化层进行升维。

(3)从中间特征F_m提取深层特征F_d，深层特征提取包括多组依次交替堆叠卷积块和MobileViT模块。MobileViT模块，即移动视觉转换器，它将视觉转换器(VisionTransformer)引入卷积神经网络(CNN)，使特征提取模块在具有空间归纳偏差的同时有效地编码局部信息和全局信息。

重建模块采用子像素卷积对特征提取模块提取的特征进行上采样，提高重建图像质量，最终获得超分辨率图像I_r。

边缘检测模块采用Canny算法，分别对步骤1中的高分辨率图像I_h和超分辨率图像I_r输入到边缘提取模块，提取得到边缘特征图I_he和I_re，并计算i_he和I_re的边缘损失函数。

步骤4：将步骤中训练集和验证集输入步骤3搭建的网络模型进行优化训练，得到最优模型；

采用损失函数对步骤3构建的模型进行训练：

损失函数L＝α·L^MS_SSIM+βl2+λL_GP；

L^MS_SSIM为结构相似性损失函数，用于计算高分辨率图像I_h和超分辨率图像I_r的结构性差距，保留重建图像的高频信息，α为权重系数。

其中，M表示不同的尺度，μ_p、μ_g分别表示超分辨率图像和高分辨率图像的均值，σ_p、σ_g分别表示超分辨率图像和高分辨率图像之间的标准差，σ_pg表示超分辨率图像和高分辨率图像之间的协方差，β_m、γ_m分别表示两项之间的相对重要性，c₁、c₂为常数项；

l2为平均平方误差，用于计算高分辨率图像I_h和超分辨率图像I_r的差值，并放大误差，使模型得到更好地优化，β为权重系数。

其中，y_i为高分辨率图像的像素值，f(x_i)为超分辨率图像的像素值，x_i为当前图像的像素值，n为样本数量；

L_GP为梯度函数，用于计算高分辨率边缘特征图I_he和超分辨率边缘特征图I_re，使注意力更集中于边缘特征的梯度，锐化边界并优化细节恢复能力，λ为权重系数。

(x_i∈[x₀,x₁])；其中，

表示HR图像的梯度场，

表示SR图像的梯度场，n为样本数量。x_i为当前图像的像素值，x₀和x₁分别为像素值的下限和上限。

步骤5：将任意低分辨率中文文本图像输入步骤4训练得到的最优模型中，输出相应的高分辨率中文文本图像。

与现有技术相比，本发明的显著优点为：本发明的中文文本图像超分辨率方法，引入基于Canny算法的边缘检测模块，并使用梯度先验损失函数对得到的边缘特征图进行反向传播，使训练过程更注重边缘和细节；将MobileViT块作为特征提取网络，有效减少计算量和网络模型体积，并将Vision Transformer引入CNN，使特征提取模块在具有空间归纳偏差的同时有效地捕捉到中文文本的局部信息和全局信息，保证提取的特征是丰富的，提高中文文本超分辨率重建效果。

附图说明

图1为本发明的中文文本超分辨率重建流程图；

图2为本发明的中文文本超分辨率重建网络结构图；

图3为本发明的中文文本超分辨率重建结果(下采样4倍)图；

图4为本发明的中文文本超分辨率重建方法与其他方法的视觉效果对比结果(下采样4倍)图。

具体实施方式

以下结合附图及具体实施步骤对本发明进行详细说明。

如图1所示，一种街景中文文本图像超分辨率重建方法，具体包括如下步骤：

步骤1：获取街景中的高分辨率图像I_h，并通过双三次插值法，以设定倍数将高分辨率图像进行降采样，得到低分辨率图像I_l，形成数据集。

具体为：首先收集大量含有中文的场景图像，再从这些场景图像中截取中文，作为高分辨率图像，其大小为144×144。其次，经过双三次算法，对高分辨率图像进行2倍、3倍、4倍下采样，分别得到尺寸为72×72、48×48、36×36的低分辨率图像。整个数据集共有10100组图像，按照8：1：1形成训练集8100组，验证集1000组，测试集1000组，每组均包含高分辨率图像以及不同下采样倍数的低分辨率图像，满足不同放大倍数的需求。

具体来说，首先从数据集中随机读取一定数量的图片，该数量由训练时的批量大小(Batch Size)决定。其次将读取的图像进行归一化操作并转为张量(Tensor)变量，针对训练集和验证集，进行随机裁剪和随机旋转，提升模型的泛化能力。

步骤3：构建超分辨率重建网络模型，如图2所示，中文文本超分辨率重建网络的结构图该模型由特征提取模块、重建模块和边缘检测模块构成；

特征提取模块具体实现如下：

(1)浅层特征提取。给定低分辨率图像

(H、W和C_in分别是图像的高度、宽度和输入通道数)作为输入。在该部分中，输入通道为3，使用3×3卷积层提取浅层特征F_s，为了保持图像尺寸的不变性，padding设为1，最终输出通道数为16。

(2)中间特征提取。从F_s提取中间特征F_m，由三级卷积块构成，卷积块首先经过3×3卷积层、批标准化层、SiLU激活函数层提取特征，再依次通过1×1卷积层、批标准化层进行升维。在该部分中，第一级输入通道为16，输出通道为32；第二级输入通道为32，输出通道为48；第三级输入通道为48，输出通道为48。

(3)深层特征提取。从F_m提取深层特征F_d，由三级依次交替堆叠卷积块和MobileViT模块构成。其中，MobileViT模块，即移动视觉转换器，它将视觉转换器(VisionTransformer)引入卷积神经网络(CNN)。在该部分中，第一级输入通道数为48，Transformer维度为96，输出通道数为64，深度为3；第二级的输入通道数为64，Transformer维度为120，深度为5，输出通道为80；第三级的输入通道数为80，Transformer维度为144，深度为4，输出通道数为96。

图像重建模块通过子像素卷积将特征图上采样到目标尺寸。为减少计算量，首先通过2个3×3卷积层，逐步将特征图的通道数减少到32，再进行子像素卷积上采样操作，得到超分辨率图像I_r，并将其作为网络的第一返回值。

边缘检测模块主要采用Canny算法，阈值的分别为2.5和5，即在进行非极大值抑制后，当像素点的梯度低于2.5时被抛弃，高于5时则保留，中间值则根据连通性确定是否保留。通过循环对批处理中的所有图片依次进行边缘计算，能够精细的检测到边缘特征图并将边缘特征图I_he和I_re作为网络的第二、三返回值，用于超分辨率模型训练时计算梯度损失函数，引导文本边缘进行重建。

步骤4：将步骤1得到的数据集中的训练集和验证集送入步骤3搭建的网络中，按调整好的参数进行训练，并保存最优模型；

具体来说，将训练参数设置如下：采用AdamW优化器，初始化学习率为0.00002，200轮时学习率调整为0.000002，Batch Size为48，epoch为300。训练模型时，将步骤1中的I_h与步骤4中的I_r、步骤2中的边缘特征图I_he和步骤5中的边缘特征图I_re经过损失函数，计算预测图像与原图的差距，并进行反向传播。

训练过程中采用的损失函数L＝α·L^MS_SSIM+βl2+λL_GP；L^MS_SSIM为结构相似性损失函数，用于计算高分辨率图像I_h和超分辨率图像I_r的结构性差距，保留重建图像的高频信息，权重α＝0.7。

其中，M表示不同的尺度，μ_p、μ_g分别表示超分辨率图像和高分辨率图像的均值，σ_p、σ_g分别表示超分辨率图像和高分辨率图像之间的标准差，σ_pg表示超分辨率图像和高分辨率图像之间的协方差，

β_m、γ_m分别表示两项之间的相对重要性，c₁、c₂为常数项。

l2为平均平方误差，用于计算高分辨率图像I_h和超分辨率图像I_r的差值，并放大误差，使模型得到更好地优化，β＝0.1。

其中，y_i为HR图像的像素值，f(x_i)为SR图像的像素值，x_i为当前图像的像素值，n为样本数量。

L_GP为梯度函数，用于计算高分辨率边缘特征图I_he和超分辨率边缘特征图I_re，使注意力更集中于边缘特征的梯度，锐化边界并优化细节恢复能力，权重λ＝0.2。

(x_i∈[x₀,x₁])；

表示高分辨率图像的梯度场，

表示超分辨率图像的梯度场，n为样本数量。x_i为当前图像的像素值，x₀和x₁分别为像素值的下限和上限。

步骤5：将步骤4中得到的最优模型测试低分辨率中文文本图像，即可得到高分辨率中文文本图像，如图3所示为中文文本超分辨率模型的重建结果，可以看到，本发明的中文文本超分辨率模型有良好的视觉提升效果。发明的中文文本超分辨率重建方法与其他方法的指标对比结果如表1所示，可以看出，2倍上采样结果虽略低，但也取得了非常不错的结果，而在更大倍数上采样(3倍和4倍)时，本发明的优势更为明显，远远超出其他三种。

表1

如图4所示，以4倍下采样为例，展示了本发明的中文文本超分辨率重建方法与其他方法的视觉效果对比结果，可以观察到，通过本发明的重建方法得到的高分辨率文本图像，其文本的边缘更加流畅，细节处理上优于其他方法。

以上结合附图对本发明的具体实施方式做了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种街景中文文本图像超分辨率重建方法，其特征在于：

具体包括如下步骤：

步骤1：获取街景中的高分辨率图像I_h，并通过双三次插值法，以设定的倍数将高分辨率图像进行降采样，得到低分辨率图像I_l，形成数据集；根据需求将数据集分为训练集和验证集；

特征提取模块具体包括：

(1)浅层特征提取：给定低分辨率图像作为输入，使用3×3卷积层提取浅层特征F_s；

(2)从浅层特征F_s提取中间特征F_m，中间特征提取包括三级卷积块，卷积块首先依次经过3×3卷积层、批标准化层、SiLU激活函数层提取特征，再依次通过1×1卷积层、批标准化层进行升维；

(3)从中间特征m_m提取深层特征F_d，深层特征提取包括多组依次交替堆叠卷积块和MobileViT模块；MobileViT模将视觉转换器引入卷积神经网络，使特征提取模块在具有空间归纳偏差的同时有效地编码局部信息和全局信息；

重建模块采用子像素卷积对特征提取模块提取的特征进行上采样，最终获得超分辨率图像I_r；

边缘检测模块采用Canny算法，分别将步骤1中的高分辨率图像I_h和重建的超分辨率图像I_r输入到边缘提取模块，提取得到边缘特征图I_he和I_re，并计算I_he和I_re的边缘损失函数；

2.如权利要求1所述的街景中文文本图像超分辨率重建方法，其特征在于：步骤1所述的数据集包括多组图像，每组均包含高分辨率图像以及经过双三次下采样2倍、3倍、4倍的低分辨率图像。

3.如权利要求1所述的街景中文文本图像超分辨率重建方法，其特征在于：步骤2所述的预处理操为将训练集和验证集中图像进行随机裁剪或随机旋转，按需调整图像大小。

4.如权利要求1所述的街景中文文本图像超分辨率重建方法，其特征在于：所述的步骤4采用损失函数对步骤3构建的模型进行优化训练：

损失函数L＝α·L^MS_SSIM+βl2+λL_GP；L^MS_SSIM为结构相似性损失函数，用于计算高分辨率图像I_h和超分辨率图像I_r的结构性差距，保留重建图像的高频信息，α为权重系数；

l2为平均平方误差，用于计算高分辨率图像I_h和超分辨率图像I_r的差值，并放大误差，使模型得到更好地优化，β为权重系数；

其中，y_i为高分辨率图像图像的像素值，f(x_i)为超分辨率图像的像素值，x_i为当前图像的像素值，n为样本数量；

L_GP为梯度函数，用于计算高分辨率边缘特征图I_he和超分辨率边缘特征图I_re，使注意力更集中于边缘特征的梯度，锐化边界并优化细节恢复能力，λ为权重系数；

(x_i∈[x₀,x₁])；其中，

表示HR图像的梯度场，

表示SR图像的梯度场，n为样本数量；x_i为当前图像的像素值，x₀和x₁分别为像素值的下限和上限。