CN116703725A

CN116703725A - 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法

Info

Publication number: CN116703725A
Application number: CN202310639600.1A
Authority: CN
Inventors: 朱煜; 施秦; 汪楠; 凌小峰; 叶炯耀
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-05

Abstract

本发明涉及一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率重建的方法，其中，该方法包括：采集真实世界文本图像超分辨率的数据集，并对其进行相应的预处理操作；构建超分辨率分支将输入的低分辨率图像重建为清晰的超分辨率图像；构建文本识别分支从低分辨率图像中提取视觉特征和文本特征构建图像‑图像融合模块，进行图像特征进行融合，加强视觉特征；构建频率‑空间感知模块，利用频域分支和时域分支，分别提取频域信息和时域信息；构建文本‑图像融合模块，将文本特征与图形特征进行融合处理；采用图像重建损失和文本识别损失训练、优化双分支网络。本发明相较于基线模型和现有的前沿方法，具有更好的超分辨率重建的效果。

Description

感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法

技术领域

本发明涉及数字图像技术领域，尤其涉及计算机视觉技术领域，具体是指一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法。

背景技术

图像超分辨率重建是计算机视觉领域中的一个重要研究方向，旨在从低分辨率图像中重建出含有清晰细节特征的高分辨图像。文本图像超分辨率(scene text imagesuper-resolution，STISR)是图像超分辨率领域中的一个重要分支。文本图像超分辨针对低分辨文本图像进行重建，提升图像分辨率和视觉质量，将原本模糊、难以辨认的字符恢复为清晰的文本。目前，主流的文本识别网络在识别高分辨率文本图像时能获得较高的识别率，但在处理低分辨率的模糊文本图像时识别率较低，利用超分辨率技术对文本图像进行预处理，可以有效提升文本识别任务的准确率。

近年来，得益于深度学习技术的快速发展，图像超分辨率恢复技术的研究也不断取得突破，通过深度神经网络实现的超分辨率模型也已成为超分辨技术研究的主流方法。超分辨率技术日渐成熟，在自然图像上已经有很好的研究成果，但在处理真实世界的文本图像时，仍面临较大挑战。一方面，由于文本图像因为扭曲、遮挡、定向模糊、杂乱的背景以及不同的视角等因素的影响，并且文本本身也存在不同字体、不同字号以及不同颜色的情况，导致常规的超分辨率方法对文本图像的处理效果不佳。另一方面，与利用双三次下采样等方式得到的低分辨率图像相比，真实世界采集的低分辨率图像退化更加严重复杂，而人为设计的退化方式不能很好地模拟真实世界的情况。因此，真实世界的文本图像超分辨任务难度更大。

目前，不少研究者开始关注真实世界的文本图像超分辨率方法。例如，Wang等人提出首个真实世界的文本图像超分辨率数据集TextZoom，并提出由序列化残差模块构成的基准模型TSRN，该数据集和模型的提出，很大程度上推动了STISR研究进展。Fang等人引入判别器，防止超分辨网络生成过于平滑的图像，同时利用三元注意力模块，提升特征表达能力，并使网络对特征的不同位置有不同的关注度。Ma等人利用文本识别网络，提取文本先验信息，指导超分辨重建过程。同时，采用迭代方式不断优化提取地文本特征。Chen等人设计了像素级的监督模块，有效恢复文本图像的颜色和轮廓。同时，利用笔画关注模块，突出笔画区域的细节。目前的方法中，均未充分提取文本图像中的重要特征，也未考虑在频域学习特征，超分辨率重建的性能仍有进步空间。

发明内容

本发明的目的是针对上述方法的不足，提出了一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法。

为了实现上述目的，本发明的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法如下：

该感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其主要特点是，所述的方法包括以下步骤：

(1)采集真实世界文本图像超分辨率的数据集，并对低分辨率图像和高分辨率图像进行预处理操作；

(2)构建双分支网络：超分辨率分支将输入的低分辨率图像重建为清晰的超分辨率图像，文本识别分支从所述的低分辨率图像中提取视觉特征和文本特征，指导超分辨率任务；

(3)构建图像-图像融合模块：将所述的文本识别分支中ResNet的浅层、深层特征与所述的超分辨率分支中的图像特征进行融合，加强视觉特征；

(4)构建频率-空间感知模块：利用频域分支和时域分支，分别在频域和时域学习相应的特征；

(5)构建文本-图像融合模块：将所述的文本识别分支中位于位置注意力模块处的上下文特征与所述的超分辨率分支中的图像特征进行融合，辅助超分辨率分支感知文本的序列信息；

(6)采用图像重建损失和文本识别损失，训练、优化所述的双分支网络。

较佳地，所述的步骤(1)具体为：

将原始的高分辨率图像缩放为32×128pt，低分辨图像缩放为16×64pt，得到训练以及测试的图像。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)采用如下方式进行超分辨率分支的处理：

输入低分辨率LR图像及其掩码图像，构建空间变换网络将低分辨率LR图像和高分辨率HR图像进行对齐，再将对齐的LR特征图输入到一个卷积层，提取浅层特征，进而利用堆叠的5个多重特征增强模块提取深层特征，最后将相应的特征输入到图像重建模块，输出超分辨率SR图像；

(2.2)采用如下方式进行文本识别分支的处理：

输入上采样后的低分辨率LR图像构建视觉提取器，提取视觉特征，再将对应的图像输入到位置注意力模块，对视觉特征进行序列建模，提取文本特征，最后将提取出的文本特征输入到全连接层和线性层，输出字符序列。

较佳地，所述的步骤(2.1)具体包括以下步骤：

(2.1.1)给定LR图像计算平均灰度值作为阈值生成二值掩码图像并将其与所述的LR图像I_LR进行拼接，得到4通道的输入图像其中，H和W分别为输入图像的高和宽；

(2.1.2)构建空间变换网络，利用可学习的仿射变换，将所述的LR图像和HR图像进行对齐；

(2.1.3)利用一个9×9卷积层，从对齐后的LR图像中提取浅层特征F_s；

(2.1.4)构建5个堆叠的多重特征增强模块，并从所述的浅层特征F_s中提取深层特征F_d，其中，所述的多重特征增强模块包括图像-图像融合模块、频率-空间感知模块、文本-图像融合模块和双向门控循环单元，并将第5个多重特征增强模块输出的深度特征记作F_d；

(2.1.5)构建图像重建模块：由1个像素重组层、1个9×9卷积层和激活层构成；输入所述的深度特征F_d，重建出超分辨率SR图像

较佳地，所述的步骤(2.2)具体包括以下步骤：

(2.2.1)将所述的LR图像进行双三次上采样处理构建视觉提取器，得到特征/>其中，Bic表示双三次上采样，H，W分别表示图像的高度、宽度；

(2.2.2)所述的视觉特征提取器由ResNet和2个Transformer模块组成，从特征中提取视觉特征/>

(2.2.3)位置注意力模块基于Attention机制，对所述的视觉特征V_F进行序列建模，提取文本特征

(2.2.4)将所述的文本特征T输入到全连接层和softmax层，输出字符序列其中，C′表示字符的类别数。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)将4个经过所述的ResNet进行特征处理的输出特征图记作{F₂,F₃,F₄,F₅}，其中，超分辨分支的特征图记作

(3.2)利用反卷积将特征图F₃,F₄,F₅转换为与所述的超分辨率分支中的特征图I分辨率相同的特征图D₃,D₄,D₅，其中，特征图F₂经过恒等映射作为D₂；

(3.3)对{D₂,D₃,D₄,D₅}取均值后，再将其与特征图I在通道维度上拼接，得到特征

(3.4)利用轻量级的通道注意力自适应分配特征P的通道权重，再经过3×3卷积层，将通道数2C降为C，所述的图像-图像融合模块最终输出特征图

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)对所述的图像-图像融合模块输出的特征图X和时域分支H_S采用两个3×3卷积层，提取局部特征，其中，时域分支H_S的输出为：

Y_s＝H_S(X)

(4.2)频域分支H_F基于傅里叶变换将特征图X变换到频域空间学习频域特征，再将图像变换回空间域。

较佳地，所述的步骤(4.2)具体包括以下步骤：

(4.2.1)频域分支H_F利用离散傅里叶变换将大小为H×W的特征图X通过以下方式转换为连续的频率：

其中，f(x,y)表示空间域中坐标(x,y)处的像素值，F(u,v)表示频谱中坐标(u,v)处的复数值，由上式，正交的cosine函数和sine函数分别对应分解频率的实部和虚部，频谱中某个频率由空间域中所有图像像素计算而得，因此，频谱包含特征图X的全局信息；

(4.2.2)将实部和虚部在通道维度上进行拼接，经过1×1卷积，ReLU激活函数，1×1卷积，在频域学习特征；

(4.2.3)将实部和虚部分离，利用离散傅里叶反变换，将特征变换回空间域，此时频域分支H_F的输出为：

Y_f＝H_F(X)。

较佳地，所述的步骤(4)还包括：

(4.3)所述的频率-空间感知模块的最终输出Y为原始输入特征图X，时域分支H_S的输出特征Y_s和频域分支H_F的输出特征Y_f三者的元素和：

Y＝X+Y_s+Y_f。

较佳地，所述的步骤(5)具体包括以下步骤：

(5.1)将文本识别分支中位置注意力模块输出的序列特征记作频率-空间感知模块的输出记作/>

(5.2)利用全连接层将序列特征T的通道数降为C，并在序列特征T上加入绝对位置编码，得到特征

(5.3)在图像特征Y上计算循环位置编码，与图像特征Y进行元素相加，并经过维度重组，得到图像特征

(5.4)基于多头自注意力机制MSA和多头互注意力机制MCA构建特征融合模块：在所述的多头自注意力机制MSA中，将图像特征Y′作为query，key和value，用于在图像中计算全局交互性；将所述的多头自注意力机制MSA的输出经过层归一化LN处理，得到图像特征Z，作为所述的多头互注意力机制MCA中的query，特征作为key和value，计算互注意力，将提取出的文本特征融合到图像特征Z中，随后，经过层归一化LN和多层感知层，输出特征/>

(5.5)将上述特征融合模块输出的特征进行维度重组，得到特征将特征E和原始图像特征Y进行通道拼接，得到特征/>

(5.6)特征E′利用位置注意力模块对不同的通道进行分配权重，再经过一层3×3卷积层，将通道数2C降为C。

较佳地，所述的步骤(5.4)具体包括以下步骤：

(5.4.1)图像特征首先经过一个线性映射层，生成query矩阵key矩阵/>和value矩阵/>再将所得的三个矩阵输入到多头自注意力机制MSA中，如以下公式所示：

其中，T表示矩阵转置操作，d为输入特征的通道数，再将特征图J经过一个层归一化LN进行处理：

J＝LN(J)

(5.4.2)将序列特征T′经过一个线性映射层，生成一个Key矩阵以及一个Value矩阵/>再将上述所得的特征图/>矩阵/>和矩阵/>输入到多头互注意力机制MCA中，如以下公式表示：

再将特征图L经过一个层归一化LN和多层MLP处理，得到特征融合模块的输出

L＝MLP(LN(K))+K。

较佳地，所述的步骤(6)具体包括以下步骤：

(6.1)采用重建损失计算超分辨率SR图像y_i和HR图像之间的L_pix距离：

(6.2)在所述的LR图像上通过以下方式计算文本识别损失L_rec：

其中，L_ce表示由对应的文本标签监督的交叉熵损失，l_u为文本识别分支输出的概率图；

(6.3)引入平衡参数λ，平衡两个损失项的权重，训练损失采用以下公式表示：

L＝L_pix+λ·L_rec。

采用了本发明的该感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法。通过构建双分支网络，创新性地设计图像-图像融合模块和文本-图像融合模块，分别将文本识别网络中的视觉特征、文本特征与超分辨率网络中的特征进行融合。图像-图像融合模块充分利用浅层特征和深层特征，加强视觉表征。文本-图像融合模块基于自注意力机制和交叉注意力机制，加强模型对文本序列知识的感知。构建频率-空间感知模块，在频域和空间域中学习特征，以实现更好的超分辨率效果。本技术方案在TextZoom数据集上进行实验验证，相较于基线模型和前沿方法，能达到更优异的超分辨率重建效果。

附图说明

图1为本发明的整体结构示意图。

图2为本发明的图像-图像融合模块的结构示意图。

图3为本发明的频率-空间感知模块的结构示意图。

图4为本发明的文本-图像融合模块的结构示意图。

图5为本发明在一具体实施例中PerMR模型以及其基线模型TSRN超分辨率重建的可视化结果图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

请参阅图1，该感知多重特征的双支路网络实现针对真实世界文本图像的超分辨率的方法，其中，所述的方法包括以下步骤：

作为本发明的优选实施方式，所述的步骤(1)具体为：

作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

(2.1)采用如下方式进行超分辨率分支的处理：

(2.2)采用如下方式进行文本识别分支的处理：

作为本发明的优选实施方式，所述的步骤(2.1)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(2.2)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(3)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(4)具体包括以下步骤：

Y_s＝H_S(X)

作为本发明的优选实施方式，所述的步骤(4.2)具体包括以下步骤：

Y_f＝H_F(X)。

作为本发明的优选实施方式，所述的步骤(4)还包括：

Y＝X+Y_s+Y_f。

作为本发明的优选实施方式，所述的步骤(5)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(5.4)具体包括以下步骤：

J＝LN(J)

L＝MLP(LN(K))+K。

作为本发明的优选实施方式，所述的步骤(6)具体包括以下步骤：

(6.2)在所述的LR图像上通过以下方式计算文本识别损失L_rec：

其中，L_ce表示由对应的文本标签监督的交叉熵损失，l_i为文本识别分支输出的概率图；

L＝L_pix+λ·L_rec。

在本发明的一具体实施例中，本技术方案的该感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法具体测试如下：

(1)数据集

本发明使用Wang等人在ECCV 2020提出的数据集TextZoom。该数据集是首个真实世界文本图像超分辨率领域的数据集。Wang等人在制作该数据集时，在两个真实世界图像超分辨率数据集RealSR和SR-RAW上进行裁剪，收集21,740个LR-HR文本图像对，并为每个文本图像对提供了文字标签。TextZoom训练集中包含17,367个LR-HR图像对。根据采集图像时不同长度的镜头焦距，将测试集分为简单(easy)，中等(medium)和困难(hard)3个子集，分别包括1,619，1,411和1,353个图像对。

(2)训练过程

将低分辨率图像缩放为16×64，高分辨率图像缩放为32×128。学习率设置为0.0002。采用Adam优化器进行反向传播，设置β₁参数为0.9，β₂参数为0.99。批大小设置为128，共训练500轮。

(3)测试结果

表1为本技术方案PerMR和现有前沿方法对TextZoom测试集进行超分辨率重建后，用ASTER、MORAN和CRNN对重建的SR图像进行识别后的结果。如表1，PerMR在三个识别网络下均达到最高的识别准确率。表2为PerMR和现有前沿方法在TextZoom测试集上的峰值信噪比(PSNR)和结构相似性(SSIM)。

如图5所示，是本方案提出的PerMR模型以及基线模型TSRN超分辨率重建的可视化结果图。第一行表示的是LR图像经过双三次上采样(Bicubic)后的结果图。第二行表示的是基准模型TSRN超分辨率的结果图。第三行表示本方案提出的PerMR模型超分辨率的结果图。每个结果图下方是用ASTER模型识别的结果。通过对比看出，本发明提出的PerMR模型相较于基线模型，可以恢复出清晰的文本区域，细节更丰富。

表1实验结果(识别准确率)

表2实验结果(PSNR和SSIM)

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的方法包括以下步骤：

2.根据权利要求1所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(1)具体为：

3.根据权利要求2所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(2)具体包括以下步骤：

(2.1)采用如下方式进行超分辨率分支的处理：

(2.2)采用如下方式进行文本识别分支的处理：

4.根据权利要求3所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(2.1)具体包括以下步骤：

5.根据权利要求3所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(2.2)具体包括以下步骤：

6.根据权利要求3所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(3)具体包括以下步骤：

(3.1)将4个经过所述的ResNet进行特征处理的输出特征图记作{F₂,F₃,F₄,F₅{，其中，超分辨分支的特征图记作

7.根据权利要求6所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(4)具体包括以下步骤：

Y_s＝H_S(X)

8.根据权利要求7所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(4.2)具体包括以下步骤：

Y_f＝H_F(X)。

9.根据权利要求8所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(4)还包括：

Y＝X+Y_s+Y_f。

10.根据权利要求9所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(5)具体包括以下步骤：

(5.4)基于多头自注意力机制MSA和多头互注意力机制MCA构建特征融合模块：在所述的多头自注意力机制MSA中，将图像特征Y′作为query，key和value，用于在图像中计算全局交互性；将所述的多头自注意力机制MSA的输出经过层归一化LN处理，得到图像特征Z，作为所述的多头互注意力机制MCA中的query，特征作为key和value，计算互注意力，将提取出的文本特征融合到图像特征Z中，随后，经过层归一化LN和多层感知层，输出特征

11.根据权利要求10所述的感知多重特征的双分支网络对真实世界文本图像进行超分辨率实现重建的方法，其特征在于，所述的步骤(5.4)具体包括以下步骤：

(5.4.1)图像特征首先经过一个线性映射层，生成query矩阵/>key矩阵/>和value矩阵/>再将所得的三个矩阵输入到多头自注意力机制MSA中，如以下公式所示：

J＝LN(J)

L＝MLP(LN(K))+K。

12.根据权利要求6所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法，其特征在于，所述的步骤(6)具体包括以下步骤：

(6.2)在所述的LR图像上通过以下方式计算文本识别损失L_rec：

L＝L_pix+λ·L_rec。