CN116258632A

CN116258632A - 一种基于文本辅助的文本图像超分辨率重建方法

Info

Publication number: CN116258632A
Application number: CN202310244778.6A
Authority: CN
Inventors: 张登银; 英俊豪; 严伟丹
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-13
Also published as: WO2024187729A1

Abstract

本发明公开了一种基于文本辅助的文本图像超分辨率重建方法，方法包括：获取待重建的低分辨率文本图像；将所述低分辨率文本图像输入预训练好的文本图像超分辨率重建模型，根据所述模型的输出，确定文本图像超分辨率重建结果；其中所述文本图像超分辨率重建模型的构建训练方法包括：获取文本图像数据集；利用所述文本图像数据集对预构建的文本图像超分辨率重建模型进行训练，得到训练好的文本图像超分辨率重建模型。文本图像超分辨率模型将文本序列特征与图像纹理特征进行了融合，相较于其他普通的超分辨率模型，充分挖掘并利用了低分辨率图像中的文本信息，有助于提高文本图像的超分辨率重建质量。

Description

一种基于文本辅助的文本图像超分辨率重建方法

技术领域

本发明涉及一种基于文本辅助的文本图像超分辨率重建方法，属于图像处理技术领域。

背景技术

图像是承载信息的重要载体，图像处理技术是信息处理技术的重要组成部分。其中，图像的分辨率是图像处理的一个重要要素。图像的分辨率影响着视觉任务的难度和视觉效果。高分辨率的图像可以提供更清晰的细节和辨识度，方便人们的分析、决策、观赏等。然而，获取高分辨率图像往往需要高成本的图像获取设备。解决这一问题的实用、有效方法是图像超分辨率重建技术。

图像超分辨率就是通过一定的算法将低分辨率的图像重建为高分辨率的图像。图像超分辨率仅通过计算机的处理重建出高分辨率的图像，减少了高精度的图像获取设备带来的额外成本。同时，超分辨率技术可以尽可能地弥补由于图像信息采集不佳或传输过程压缩等情况下带来的图像降质，因此图像超分辨率算法的研究具有十分重要的意义。

传统的图像超分辨率算法可分为基于插值的方法与基于重构的方法两类。随着近年来深度学习的蓬勃发展，图像超分辨率算法也开始与深度学习紧密结合。基于深度学习的图像超分辨率算法的主要思想是利用高分辨率和低分辨率图像来训练神经网络模型，从而表征两者之间的映射关系。其中深度残差网络是通过多个残差模块对图像进行特征提取，同时运用跳层链接将网络输入连接到网络输出，以保证整个网络的稳定性，使整个模型在训练时收敛难度降低。

文本识别是计算机视觉任务中最为基础和重要的一项任务，文本识别为后续与文本相关的应用提供了基础。现有的文本识别器在清晰的场景文本图像上取得了令人满意的结果。但是在识别低分辨率的文本图像时，识别准确率急剧下降。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于文本辅助的文本图像超分辨率重建方法，可以将文本图像的超分辨率作为文本识别的一项预处理工作，从而提升文本识别的准确率。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，本发明提供一种基于文本辅助的文本图像超分辨率重建方法，包括：

获取待重建的低分辨率文本图像；

将所述低分辨率文本图像输入预训练好的文本图像超分辨率重建模型，根据所述模型的输出，确定文本图像超分辨率重建结果；

其中所述文本图像超分辨率重建模型的构建训练方法包括：

获取文本图像数据集；

利用所述文本图像数据集对预构建的文本图像超分辨率重建模型进行训练，得到训练好的文本图像超分辨率重建模型。

在一些实施例中，将所述低分辨率文本图像输入预训练好的文本图像超分辨率重建模型，根据所述模型的输出，确定文本图像超分辨率重建结果，包括：

以低分辨率文本图像对应的RGB图像及其灰度图作为四通道的图像输入，先通过卷积核为3*3的卷积层以及Relu激活层提取浅层特征，得到第一特征图；

将第一特征图输入卷积块注意力模块以获取图像的通道和空间注意力权重，得到带有注意力权重的特征图；

将带有注意力权重的特征图通过多个门控文本检测模块提取得到文本序列特征；

将门控文本检测模块输出的文本序列特征与第一特征图进行跳层连接，相加得到新的特征图；

将新的特征图输入到亚像素卷积上采样层和Tanh激活层，得到输出的超分辨率重建的四通道文本图像。

在一些实施例中，文本图像超分辨率重建模型的构建方法包括：

将深度残差网络中的残差模块替换为门控文本检测模块，在门控文本检测模块前加入卷积块注意力模块。

在一些实施例中，所述卷积块注意力模块的处理过程为：

将输入的第一特征图沿着通道和空间两个维度依次推断出图像的通道和空间注意力权重，然后与输入的第一特征图相乘实现对特征的自适应调整，得到带有注意力权重的特征图。

在一些实施例中，所述门控文本检测模块将特征图依次经过两个卷积核为3*3的卷积层以及BN层提取图像特征，之后利用LSTM模块分别从横向和纵向提取得到横向文本特征和纵向文本特征，通过门控特征融合方式将图像特征、横向文本特征和纵向文本特征进行融合，输入到下一个门控文本检测模块。

在一些实施例中，门控特征融合的公式为：

其中n表示特征的种类数，W_i表示可训练的权重，F_i表示输入的特征，F_g表示输出的加权特征。

在一些实施例中，文本图像超分辨率重建模型进行训练过程中采用的损失函数为：

L＝L₂+αL_TA

其中，L₂为均方误差损失函数，L_TA为文本辅助损失函数，α为两个损失函数比例的超参数；

均方误差损失函数的公式为：

其中MSE表示均方误差，x，y代表M×N大小的两幅图像，x_ij，y_ij表示像素点的值；

文本辅助损失函数的公式为：

其中，I^HR表示原始的高分辨率文本图像，I^SR表示网络生成的超分辨率文本图像，

表示图像通过预训练的文本识别网络编码器生成的一维向量，||·||₂表示取2范数。

在一些实施例中，训练过程中，分别将所述文本图像超分辨率重建模型生成的超分辨图像与对应的原始高分辨率图像输入到预训练好的文本识别网络模型的编码器中，获得对应的一维识别序列，通过两张文本图像识别序列的相似性来衡量两张图像文本内容的相似性。

第二方面，本发明提供了一种基于文本辅助的文本图像超分辨率重建装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

第四方面，本发明提供了一种设备，包括，

一个或多个处理器、一个或多个存储器以及一个或多个程序，其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行第一方面所述的方法中的任一方法的指令。

有益效果：本发明提供的基于文本辅助的文本图像超分辨率重建方法，具有以下优点：

1.本发明公开的文本图像超分辨率模型引入注意力机制对特征图赋予不同的权重，相比于其他普通的文本图像超分辨率模型，使超分辨率和后续的文本检测能更好地聚焦文字部分，从而提高模型的重建质量。

2.本发明公开的文本图像超分辨率模型将文本序列特征与图像纹理特征进行了融合，相较于其他普通的超分辨率模型，其充分挖掘并利用了低分辨率图像中的文本信息，有助于提高文本图像的超分辨率重建质量。

3.在本发明进一步的技术方案中，提出了一种文本辅助损失，相较于原来的损失函数，文本辅助损失同时反映了文本图像的文本内容和分辨率，有助于生成可读性更强的高分辨率文本图像。

附图说明

图1为根据本发明一实施例的基于文本辅助的文本图像超分辨率重建方法流程示意图；

图2为根据本发明一实施例的文本图像超分辨率重建模型网络框架示意图；

图3为根据本发明一实施例中门控文本检测模块的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

目前，基于深度学习的图像超分辨率已经取得了较为可观的性能，但其中大多数方法的目的是恢复自然图像的细节纹理。而文本图像超分辨率重建任务更关注在提升图像分辨率的同时提高文本的可读性。将文本图像视为自然图像来执行超分辨率，会忽略了图像中文本本身所带来的分类信息。因此，相比于一般的图像超分辨率重建算法，文本图像的超分辨率重建需要针对性的算法，以获得令人满意的超分辨率重建结果。

本发明公开了一种基于文本辅助的文本图像超分辨率重建方法，该方法在深度残差网络(ResNet)的基础上将其中的残差模块替换为本发明提出的门控文本检测模块,利用卷积层进行图像特征提取，再通过双向门控循环单元(GRU)进行序列特征提取；将残差模块中原有的跳层链接更改为门控的特征融合机制，通过多个门控文本检测模块相连以提取深层特征。另一方面，该方法在网络中增加了卷积块注意力机制模块(CBAM)，通过将带有通道和空间注意力权重的特征输入到门控文本检测模块，进一步增强文本序列特征的提取。此外，该方法提出了一种新的损失函数，称为文本辅助损失，兼顾图像分辨率和文本的可读性两个目标，有效提升文本图像超分辨率模型的性能。

实施例1

一种基于文本辅助的文本图像超分辨率重建方法，包括：

获取待重建的低分辨率文本图像；

其中所述文本图像超分辨率重建模型的构建训练方法包括：

获取文本图像数据集；

在一些实施例中，一种基于文本辅助的文本图像超分辨率重建方法，如图1所示，包括以下步骤：

S1：获取文本图像数据集，本实施例中文本图像数据集为Textzoom数据集。

S2：将数据集分为测试集与验证集两部分，输入文本图像超分辨率重建模型，模型网络框架示意图如图2所示。

以低分辨率图像对应的RGB图像及其灰度图作为四通道的图像输入，先通过卷积核为3*3的卷积层以及Relu激活层提取浅层特征；将特征图输入卷积块注意力模块以获取图像的通道和空间注意力权重，并通过多个门控文本检测模块进一步提取文本序列特征；将门控文本检测模块输出的特征与第一层卷积输出的特征进行跳层连接(Concatenation)，相加得到新的特征图；将新的特征图输入到亚像素卷积上采样层(DeConv)和Tanh激活层，最终输出超分辨率重建的四通道文本图像。

卷积块注意力模块是将输入的特征图沿着通道和空间两个维度依次推断出注意力权重，然后与输入的特征图相乘实现对特征的自适应调整。

如图3所示，本实施例中提出的门控文本检测模块是将特征图依次经过两个卷积核为3*3的卷积层以及BN层进一步提取图像特征，之后利用LSTM模块分别从横向和纵向提取文本特征，通过门控的特征融合方式将三种特征进行融合，输入到下一个门控文本检测模块。

门控特征融合的公式为：

S3：构建文本图像超分辨率网络的损失函数。网络总体损失函数为：

＝L₂+αL_TA

其中，L₂为均方误差损失函数，L_TA为文本辅助损失函数，α为两个损失函数比例的超参数。

均方误差函数为图像处理领域中常用的损失函数，具体公式为：

其中x，y代表M×N大小的两幅图像，x_ij，y_ij表示像素点的值。通过均方误差来衡量两张图像像素级别的相似性。

本发明中提出的文本辅助损失函数具体公式为：

其中，^HR表示原始的高分辨率文本图，I^SR表示网络生成的超分辨率文本图像，

表示图像通过预训练的文本识别网络编码器生成的一维向量。

本实施例中文本识别网络选用预训练的RCNN文本识别网络，分别将网络生成的超分辨图像与原始高分辨率图像输入到RCNN模型的编码器中，获得对应的一维识别序列。通过两张文本图像识别序列的相似性来衡量两张图像文本内容的相似性。

S4：训练文本图像超分辨率网络，具体包括：

S4.1：将低分辨率图像转换为RGB图像及其灰度图作为四通道的图像输入；

S4.2：将S4.1得到的四通道图像输入到卷积层提取浅层特征，得到特征图；

S4.3：将S4.2得到的特征图输入到卷积块注意力模块以获取图像的通道和空间注意力权重；

S4.4：将S4.3得到的带有注意力权重的特征图通过多个门控文本检测模块进一步提取文本序列特征；

S4.5：将S4.4输出的特征与S4.2输出的特征进行跳层连接，相加得到新的特征图；

S4.6：将S4.5得到的特征图经亚像素卷积上采样和一层卷积层输出超分辨率的结果；

S4.7：迭代S4.1到S4.6的过程，利用损失函数监督网络训练。

对于输入的低分辨率文本图像，先利用前向传播求出总误差，再利用反向传播求出各个权重参数的偏导数，最后根据梯度下降法对权重参数进行更新。迭代此过程，保存损失函数最小时的模型权重参数，得到训练好的超分辨率网络模型。

S5：将待处理的低分辨率文本图像输入所述文本图像超分辨率重建模型，得到高分辨率的文本图像。

本实施例在64位Ubuntu 18.04.5操作系统上，基于Python 3.6.9、torch1.10.1、torchvision 0.11.2软件环境，使用一块NVIDIA RTX 3090GPU完成模型的训练。训练过程使用Adam优化器并将学习率设置为10^-4，训练迭代轮数为500次，总训练时长约40小时。

实施例2

第二方面，本实施例提供了一种基于文本辅助的文本图像超分辨率重建装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

实施例4

第四方面，本发明提供了一种设备，包括，

一个或多个处理器、一个或多个存储器以及一个或多个程序，其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行实现实施例1所述的方法中的任一方法的指令。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于文本辅助的文本图像超分辨率重建方法，其特征在于，包括：

获取待重建的低分辨率文本图像；

其中所述文本图像超分辨率重建模型的构建训练方法包括：

获取文本图像数据集；

2.根据权利要求1所述的基于文本辅助的文本图像超分辨率重建方法，其特征在于，将所述低分辨率文本图像输入预训练好的文本图像超分辨率重建模型，根据所述模型的输出，确定文本图像超分辨率重建结果，包括：

3.根据权利要求2所述的基于文本辅助的文本图像超分辨率重建方法，其特征在于，文本图像超分辨率重建模型的构建方法包括：

将深度残差网络中的残差模块替换为门控文本检测模块，在门控文本检测模块前加入卷积块注意力模块；

所述卷积块注意力模块的处理过程为：

4.根据权利要求2所述的基于文本辅助的文本图像超分辨率重建方法，其特征在于，所述门控文本检测模块将特征图依次经过两个卷积核为3*3的卷积层以及BN层提取图像特征，之后利用LSTM模块分别从横向和纵向提取得到横向文本特征和纵向文本特征，通过门控特征融合方式将图像特征、横向文本特征和纵向文本特征进行融合，输入到下一个门控文本检测模块。

5.根据权利要求4所述的基于文本辅助的文本图像超分辨率重建方法，其特征在于，门控特征融合的公式为：

6.根据权利要求1所述的基于文本辅助的文本图像超分辨率重建方法，其特征在于，文本图像超分辨率重建模型进行训练过程中采用的损失函数为：

＝L₂+αL_TA

均方误差损失函数的公式为：

文本辅助损失函数的公式为：

其中，^HR表示原始的高分辨率文本图像，I^SR表示网络生成的超分辨率文本图像，

7.根据权利要求6所述的基于文本辅助的文本图像超分辨率重建方法，其特征在于，训练过程中，分别将所述文本图像超分辨率重建模型生成的超分辨图像与对应的原始高分辨率图像输入到预训练好的文本识别网络模型的编码器中，获得对应的一维识别序列，通过两张文本图像识别序列的相似性来衡量两张图像文本内容的相似性。

8.一种基于文本辅助的文本图像超分辨率重建装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1至7任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

10.一种设备，其特征在于：包括，

一个或多个处理器、一个或多个存储器以及一个或多个程序，其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。