CN114626984A

CN114626984A - 中文文本图像的超分辨率重建方法

Info

Publication number: CN114626984A
Application number: CN202210259143.9A
Authority: CN
Inventors: 张九龙; 罗少淇; 王志晓; 屈小娥
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-14

Abstract

本发明公开了中文文本图像的超分辨率重建方法，包括：获取中文文本图像的数据集，将数据集分为训练集和测试集，并对训练集中的中文文本图像进行预处理，得到低分辨率图片；构建超分辨率重建网络模型，超分辨率重建网络模型的结构包括依次设置的去噪模块、卷积模块、残差模块、上采样模块、特征重映射模块，卷积模块、残差模块的输出通过跳跃连接相连，作为上采样模块的输入；将训练集和测试集输入超分辨率重建网络模型进行学习，并对超分辨率重建网络模型参数进行优化，得到中文文本图像超分辨率模型；利用中文文本图像超分辨率模型对中文文本图像进行图像超分辨率处理。解决了现有技术中存在的带有运动模糊的中文文本图像识别准确率低的问题。

Description

中文文本图像的超分辨率重建方法

技术领域

本发明属于图像处理方法技术领域，涉及一种中文文本图像的超分辨率重建方法。

背景技术

中文文本图像主要包括手写中文文档、手写支票、书稿等诸多类型，为了让计算机对这些中文文本图像进行识别操作，并且提高识别的准确率，就需要对这些图像进行预处理，其中常见的预处理操作包括：去噪、锐化、超分辨率等。传统的基于图像处理算法的超分辨率重建算法对于一般图像(风景、照片等)有较广的适用范围，但其对于中文文本图像的适用程度较低，如果直接将其作用于文本图像，往往效果不是很理想。并且使用器材进行拍摄时，由于手部的抖动会导致拍摄出的图像存在运动模糊的情况，这样会导致识别的准确率大大降低。综上所述，目前对于中文文本图像进行超分辨率重建存在重建结果不理想，原图像带有一定噪声，导致对中文文本图像直接进行识别准确率低的问题。

发明内容

本发明的目的是提供一种中文文本图像的超分辨率重建方法，解决了现有技术中存在的带有运动模糊的中文文本图像识别准确率低的问题。

本发明所采用的技术方案是，中文文本图像的超分辨率重建方法，包括以下步骤：

步骤1、获取中文文本图像的数据集，将数据集分为训练集和测试集，并对训练集中的中文文本图像进行预处理，得到低分辨率图片；

步骤2、构建超分辨率重建网络模型，超分辨率重建网络模型的结构包括依次设置的去噪模块、卷积模块、残差模块、上采样模块、特征重映射模块，卷积模块、残差模块的输出通过跳跃连接相连，作为上采样模块的输入；

步骤3、将训练集和测试集输入超分辨率重建网络模型进行学习，并对超分辨率重建网络模型参数进行优化，得到中文文本图像超分辨率模型；

步骤4、利用中文文本图像超分辨率模型对中文文本图像进行图像超分辨率处理。

本发明的特点还在于：

步骤1的具体过程为：获取中文文本图像的数据集，将数据集分为训练集和测试集，先对训练集中的中文文本图像加上噪声，然后对有噪声的中文文本图像进行2倍下采样得到低分辨率图片。

超分辨率重建网络模型的具体操作为：

将低分辨率图片输入去噪模块进行去噪得到去噪后的低分辨率图片；

将去噪后的低分辨率图片输入卷积模块进行卷积，输出的第一特征图；

将第一特征图输入残差模块得到残差；

将残差与第一特征图利用跳跃连接相加获得第二特征图；

将第二特征图输入由上采样层、卷积层组成的上采样模块，输出初始高分辨率图像，然后将初始高分辨率图像输入到特征重映射模块得到高分辨率图片。

去噪模块包括依次设置的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块、第六卷积块、卷积层，输入图像与卷积层的输出通过跳跃连接相连。

残差模块包括依次设置的10个残差组，每个残差组由卷积层、20个残差注意力增强模块组成，残差注意力增强模块包括依次设置的第一卷积层、激活函数层、第二卷积层、注意力增强模块，残差注意力增强模块的输入与注意力增强模块的输出通过跳跃连接相连。

注意力增强模块包括依次设置的通道注意力层、空间注意力层；通道注意力层由自适应池化层、卷积层和激活函数层组成；空间注意力层由跳跃连接、卷积层、批量归一化层和Sigmod激活函数层组成。

通道注意力层的操作为：

输入X＝[x₁,L,x_c,L,x_C]，且输入X包括大小为H×W的C个特征图，C为输入X的通道数，先将输入X通过全局平均池化层H_GP获得通道统计信息z_c：

上式中，x_c(i,j)是位置(i,j)处的第c个特征x_c；

再将其输入卷积层的权重集合W_D中，并按照比例r进行降维获得大小为

的特征图；之后将

的特征图输入ReLU激活函数层与其权重集合W_U相乘后，按比例r进行升维获得大小为1×1×C的特征图，然后获得通道缩放信息s：

s＝f(W_Uδ(W_Dz)) (3)；

上式中，f和δ代表ReLU激活函数，W_D代表卷积层的权重集合，W_U代表ReLU层的权重集合；

最后利用通道缩放信息s与输入的特征图x相乘得到通道注意力层输出的通道特征图X′：

X′＝s_c*x_c (4)。

空间注意力层的具体操作为：

先将通道特征图X′在其各个像素上按通道维度分别进行平均池化操作、最大池化操作，得到两个大小为H×W×1的池化特征图F_Avg(X′)、F_Max(X′)；再将F_Avg(X′)、F_Max(X′)进行拼接得到一个大小为H×W×2的特征图，之后将大小为H×W×2的特征图输入到卷积层中，依次通过卷积操作、批归一化操作、Sigmod激活函数，输出一个大小为H×W×1的空间注意力特征图M_s(X′)；最后将通道特征图X′与空间注意力特征图M_s(X′)相乘得到空间特征图X″：

M_s(X′)＝σ(f_7×7([F_Avg(X′)；F_Max(X′)])) (5)；

X″＝X′*M_s(X′) (6)；

上式中，f_7×7表示卷积核大小为7的卷积操作，[F_Avg(X′)；F_Max(X′)]表示拼接后的特征图，σ为Sigmod激活函数。

残差注意力增强模块的具体操作为：

将卷积模块的输出F_LR通过第一卷积层、激活函数层、第二卷积层后，第二卷积层的输出与残差X_g,b输入注意力增强模块得到F_g,b：

F_g,b＝F_LR+X″·X_g,b (7)；

上式中，g为第g个残差组，b为第b个残差注意力增强模块，

分别为第一卷积层的权重、第二卷积层的权重，δ代表激活函数ReLU。

特征重映射模块包括依次设置的第一卷积块、第二卷积块、卷积层，第一卷积块、第二卷积块均由卷积层和激活函数层组成，具体操作为：

先通过第一卷积块对输入的初始高分辨率图像Y进行特征提取，得到特征图F₁(Y)：

F₁(Y)＝max(0,W₁*Y+B₁) (9)；

上式中，W₁为第一卷积块的权值，B₁为第一卷积块的偏置，max操作对应ReLU激活函数；

再通过第二卷积块对特征图F₁(Y)进行非线性映射得到特征图F₂(Y)：

F₂(Y)＝max(0,W₂*F₁(Y)+B₁) (10)；

上式中，W₂为第二卷积块的权值，B₂为第二卷积块的偏置，max操作对应ReLU激活函数；

然后通过卷积层对特征图F₂(Y)进行特征重建得到高分辨率图片I_HR：

I_HR＝W₃*F₂(Y)+B₃ (11)；

上式中，W₃为卷积层权重，B₃为卷积层的偏置。

本发明的有益效果是：

本发明的中文文本图像的超分辨率重建方法，在DnCNN层中可以对因拍摄抖动导致的带运动模糊的图像进行去噪工作，方便后续对其进行超分辨率重建，提高其清晰度；在残差组中设置了10个残差组，经这10个残差组可以很好的提取低分辨率图像的特征，在后续特征重映射模块可以对其特征进行重新映射从而保证生成的高分辨率图像的特征以及纹理信息不会发生丢失。由于中文文本图像的特殊性，其所携带的汉字信息，笔画结构复杂，本发明采用的全新结构的注意力增强模块，使用空间注意力和通道注意力相结合的CBAM块，并使用跳跃连接、卷积层和CBAM块相结合的方式，提出残差注意力增强模块，该模块可以保证原图像的汉字笔画结构不会发生错误以及通道信息不会发生丢失；在训练过程中使用了梯度优先损失作为训练的损失函数，提高了生成出的高分辨率的中文文本图像的边缘清晰度，保证了高分辨率图像的生成效果。

附图说明

图1是本发明中文文本图像的超分辨率重建方法的流程图；

图2是本发明中文文本图像的超分辨率重建方法中卷积块的结构示意图；

图3是本发明中文文本图像的超分辨率重建方法中DnCNN网络模型的结构示意图；

图4是本发明中文文本图像的超分辨率重建方法中去噪模块的结构示意图；

图5是本发明中文文本图像的超分辨率重建方法中残差组的结构示意图；

图6是本发明中文文本图像的超分辨率重建方法中注意力增强模块的结构示意图；

图7是本发明中文文本图像的超分辨率重建方法中通道注意力层的结构示意图；

图8是本发明中文文本图像的超分辨率重建方法中空间注意力层的结构示意图；

图9是本发明中文文本图像的超分辨率重建方法中残差注意力增强模块的结构示意图；

图10是本发明中文文本图像的超分辨率重建方法中特征重映射模块的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

中文文本图像的超分辨率重建方法，具体包括以下步骤：

步骤1、获取包括360万中文文本图像的数据集，将数据集分为训练集和测试集，并对训练集中的中文文本图像进行预处理，得到低分辨率图片；

具体的，获取中文文本图像的数据集，将数据集分为训练集和测试集，先对训练集中的中文文本图像加上噪声，再将有噪声的中文文本图像分为两部分，一部分作为去噪网络的训练集，对另一部分有噪声的中文文本图像进行2倍下采样得到低分辨率图片。

步骤2、构建超分辨率重建网络模型，如图1所示，超分辨率重建网络模型的结构包括依次设置的去噪模块、卷积模块、残差模块、上采样模块、特征重映射模块，卷积模块、残差模块的输出通过跳跃连接相连，作为上采样模块的输入。

去噪模块的构建过程为：首先，构建用于去噪的去噪网络，按照跳跃链接、6个卷积块、卷积层的顺序组成DnCNN去噪网络。每个卷积块包括卷积层和激活函数层；其中不同卷积块中卷积层的参数不同，其参数和DnCNN网络模型的结构如图2所示，k代表卷积核大小，s代表步长大小，dilation为膨胀卷积参数，其中当dilation＝1时为普通卷积，当dilation≠1时，为膨胀卷积。然后设置损失函数选择均方损失函数，使用最小批量梯度下降算法优化网络模型；训练参数epoch为50，batch size为64，learning rate为0.0001；将去噪网络的训练集输入到图3所示的网络模型中进行训练和测试，训练每经过1个epoch，会测试一遍当前网络在测试集上的PSNR和SSIM，这个过程由设置的训练参数自动控制完成；训练完成后得到去噪模块DnB。

如图4所示，去噪模块DnB包括依次设置的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块、第六卷积块、卷积层，输入图像与卷积层的输出通过跳跃连接相连；第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块、第六卷积块、卷积层的卷积核大小均为3，步长为1，第一卷积块、卷积层的膨胀卷积参数为1，第二卷积块、第六卷积块的膨胀卷积参数为2，第三卷积块、第五卷积块的膨胀卷积参数为3，第四卷积块的膨胀卷积参数为4。

残差模块包括依次设置的10个残差组，如图5所示，每个残差组由卷积层、20个残差注意力增强模块组成，该卷积层的卷积核大小为3x3；残差注意力增强模块包括依次设置的第一卷积层、激活函数层、第二卷积层、注意力增强模块，残差注意力增强模块的输入与注意力增强模块的输出通过跳跃连接相连。

如图6所示，注意力增强模块包括依次设置的通道注意力层CAB、空间注意力层SAB；

如图7所示，CAB由自适应池化层、卷积层和激活函数层组成；

通道注意力层的操作为：

上式中，x_c(i,j)是位置(i,j)处的第c个特征x_c；

的特征图；之后将

s＝f(W_Uδ(W_Dz)) (3)；

最后利用通道缩放信息s与输入的特征图x相乘得到通道注意力层输出的通道特征图X′，即利用通道注意力层CAB获得的通道特征图X′：

X′＝s_c*x_c (4)。

如图8所示，空间注意力层SAB由跳跃连接、卷积层、批量归一化层和Sigmod激活函数层组成；

空间注意力层的具体操作为：

先将大小为H×W×C通道特征图X′在其各个像素上按通道维度分别进行平均池化操作、最大池化操作，得到两个大小为H×W×1的池化特征图F_Avg(X′)、F_Max(X′)；再将F_Avg(X′)、F_Max(X′)进行拼接得到一个大小为H×W×2的特征图，之后将大小为H×W×2的特征图输入到卷积层中，依次通过卷积操作、批归一化操作、Sigmod激活函数，输出一个大小为H×W×1的空间注意力特征图M_s(X′)；最后将通道特征图X′与空间注意力特征图M_s(X′)相乘得到空间特征图X″：

M_s(X′)＝σ(f_7×7([F_Avg(X′)；F_Max(X′)])) (5)；

X″＝X′*M_s(X′) (6)；

如图9所示，残差注意力增强模块的具体操作为：

将卷积模块的输出F_LR通过第一卷积层、激活函数层、第二卷积层后，经过注意力增强模块得到F_g,b：

F_g,b＝F_LR+X″·X_g,b (7)；

上式中，g为第g个残差组，b为第b个残差注意力增强模块，

如图10所示，特征重映射模块包括依次设置的第一卷积块、第二卷积块、卷积层，第一卷积块、第二卷积块均由卷积层和激活函数层组成，具体操作为：

F₁(Y)＝max(0,W₁*Y+B₁) (9)；

F₂(Y)＝max(0,W₂*F₁(Y)+B₁) (10)；

I_HR＝W₃*F₂(Y)+B₃ (11)；

上式中，W₃为卷积层权重，B₃为卷积层的偏置。

超分辨率重建网络模型的具体操作为：

将低分辨率图片I_LRN输入去噪模块进行去噪得到去噪后的低分辨率图片I_LR；

将去噪后的低分辨率图片输入卷积模块进行卷积，该卷积层卷积核大小为3x3，输出大小为64的第一特征图F_LR；

将第一特征图输入残差模块得到残差F；

将残差F与第一特征图F_LR利用跳跃连接相加获得第二特征图F_DF；

将第二特征图F_DF输入由上采样层、卷积层组成的上采样模块，输出初始高分辨率图像Y，然后将初始高分辨率图像Y输入到特征重映射模块得到高分辨率图片I_HR。

步骤3、将训练集输入超分辨率重建网络模型进行学习，并对超分辨率重建网络模型参数进行优化，然后利用测试集对优化后的模型进行测试后，得到中文文本图像超分辨率模型；

具体的，为了保证输出的高分辨率的中文文本图像中汉字的边缘清晰，故使用梯度先验损失GPL作为训练的损失函数：

上式中，E_x为期望，

为训练集中的高分辨率图像HR的梯度场，

为低分辨率图片LR经过网络模型DeNRCAN进行超分辨率操作后的高分辨率图片SR的梯度场；

并使用最小批量梯度下降算法优化网络模型，训练参数epoch为50，batch size为16，learning rate为0.0001，得到中文文本图像超分辨率模型。

通过以上方式，本发明中文文本图像的超分辨率重建方法，在DnCNN层中可以对因拍摄抖动导致的带运动模糊的图像进行去噪工作，方便后续对其进行超分辨率重建，提高其清晰度；在残差组中设置了10个残差组，经这10个残差组可以很好的提取低分辨率图像的特征，在后续特征重映射模块可以对其特征进行重新映射从而保证生成的高分辨率图像的特征以及纹理信息不会发生丢失。由于中文文本图像的特殊性，其所携带的汉字信息，笔画结构复杂，本发明采用的全新结构的注意力增强模块，使用空间注意力和通道注意力相结合的CBAM块，并使用跳跃连接、卷积层和CBAM块相结合的方式，提出残差注意力增强模块，该模块可以保证原图像的汉字笔画结构不会发生错误以及通道信息不会发生丢失；在训练过程中使用了梯度优先损失作为训练的损失函数，提高了生成出的高分辨率的中文文本图像的边缘清晰度，保证了高分辨率图像的生成效果。

Claims

1.中文文本图像的超分辨率重建方法，其特征在于，包括以下步骤：

步骤1、获取中文文本图像的数据集，将所述数据集分为训练集和测试集，并对所述训练集中的中文文本图像进行预处理，得到低分辨率图片；

步骤2、构建超分辨率重建网络模型，所述超分辨率重建网络模型的结构包括依次设置的去噪模块、卷积模块、残差模块、上采样模块、特征重映射模块，所述卷积模块、残差模块的输出通过跳跃连接相连，作为上采样模块的输入；

步骤4、利用所述中文文本图像超分辨率模型对中文文本图像进行图像超分辨率处理。

2.根据权利要求1所述的中文文本图像的超分辨率重建方法，其特征在于，步骤1的具体过程为：获取中文文本图像的数据集，将所述数据集分为训练集和测试集，先对所述训练集中的中文文本图像加上噪声，然后对有噪声的中文文本图像进行2倍下采样得到低分辨率图片。

3.根据权利要求1所述的中文文本图像的超分辨率重建方法，其特征在于，所述超分辨率重建网络模型的具体操作为：

将去噪后的低分辨率图片输入卷积模块进行卷积，输出第一特征图；

将所述第一特征图输入残差模块得到残差；

将残差与第一特征图利用跳跃连接相加获得第二特征图；

将所述第二特征图输入由上采样层、卷积层组成的上采样模块，输出初始高分辨率图像，然后将所述初始高分辨率图像输入到特征重映射模块得到高分辨率图片。

4.根据权利要求1所述的中文文本图像的超分辨率重建方法，其特征在于，所述去噪模块包括依次设置的第一卷积块、第二卷积块、第三卷积块、第四卷积块、第五卷积块、第六卷积块、卷积层，所述输入图像与卷积层的输出通过跳跃连接相连。

5.根据权利要求1所述的中文文本图像的超分辨率重建方法，其特征在于，所述残差模块包括依次设置的10个残差组，每个残差组由卷积层、20个残差注意力增强模块组成，所述残差注意力增强模块包括依次设置的第一卷积层、激活函数层、第二卷积层、注意力增强模块，所述残差注意力增强模块的输入与注意力增强模块的输出通过跳跃连接相连。

6.根据权利要求5所述的中文文本图像的超分辨率重建方法，其特征在于，所述注意力增强模块包括依次设置的通道注意力层、空间注意力层；所述通道注意力层由自适应池化层、卷积层和激活函数层组成；所述空间注意力层由跳跃连接、卷积层、批量归一化层和Sigmod激活函数层组成。

7.根据权利要求6所述的中文文本图像的超分辨率重建方法，其特征在于，所述通道注意力层的操作为：

上式中，x_c(i,j)是位置(i,j)处的第c个特征x_c；

的特征图；之后将所述

s＝f(W_Uδ(W_Dz)) (3)；

最后利用所述通道缩放信息s与输入的特征图x相乘得到通道注意力层输出的通道特征图X′：

X′＝s_c*x_c (4)。

8.根据权利要求7所述的中文文本图像的超分辨率重建方法，其特征在于，所述空间注意力层的具体操作为：

先将所述通道特征图X′在其各个像素上按通道维度分别进行平均池化操作、最大池化操作，得到两个大小为H×W×1的池化特征图F_Avg(X′)、F_Max(X′)；再将F_Avg(X′)、F_Max(X′)进行拼接得到一个大小为H×W×2的特征图，之后将所述大小为H×W×2的特征图输入到卷积层中，依次通过卷积操作、批归一化操作、Sigmod激活函数，输出一个大小为H×W×1的空间注意力特征图M_s(X′)；最后将所述通道特征图X′与空间注意力特征图M_s(X′)相乘得到空间特征图X″：

M_s(X′)＝σ(f_7×7([F_Avg(X′)；F_Max(X′)])) (5)；

X″＝X′*M_s(X′) (6)；

9.根据权利要求1所述的中文文本图像的超分辨率重建方法，其特征在于，所述残差注意力增强模块的具体操作为：

F_g,b＝F_LR+X″·X_g,b (7)；

上式中，g为第g个残差组，b为第b个残差注意力增强模块，

10.根据权利要求3所述的中文文本图像的超分辨率重建方法，其特征在于，所述特征重映射模块包括依次设置的第一卷积块、第二卷积块、卷积层，所述第一卷积块、第二卷积块均由卷积层和激活函数层组成，具体操作为：

F₁(Y)＝max(0,W₁*Y+B₁) (9)；

F₂(Y)＝max(0,W₂*F₁(Y)+B₁) (10)；

I_HR＝W₃*F₂(Y)+B₃ (11)；

上式中，W₃为卷积层权重，B₃为卷积层的偏置。