CN113256494A

CN113256494A - 一种文本图像超分辨率方法

Info

Publication number: CN113256494A
Application number: CN202110614954.1A
Authority: CN
Inventors: 赵才荣; 冯舒扬
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-13
Anticipated expiration: 2041-06-02
Also published as: CN113256494B

Abstract

一种文本图像超分辨率方法，包括以下步骤：1)图像预处理：由灰度图像均值将灰度图像二值化得到文字蒙版，将文字蒙版(M)叠加到图像上，得到RGBM的四通道低分辨率‑高分辨率图像对；2)模型训练：低分辨率RGBM被送入网络，首先经过文本矫正模块的处理；紧接着，利用矫正后的特征统一构建视觉上下文，这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成；然后，每个PCAB模块的输出被统一合并到一起，进一步在这些特征上构建正交纹理感知注意力，自适应加权那些对重建高频信息有较大影响的特征；最后，经过两倍上采样和一次卷积，得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像。

Description

一种文本图像超分辨率方法

技术领域

本发明涉及计算机视觉领域。

背景技术

近年来，场景文本理解在计算机视觉任务中扮演着十分重要的角色。然而，自然环境下苛刻的成像条件(低分辨率、抖动等)往往阻碍了这些领域的进展。由于成像过程中景深变化较大，低分辨率文本图像比比皆是，同时低分辨率图像中文本的形状和轮廓经常是模糊的，这对场景文本理解无疑是巨大的挑战。

场景文本超分辨率可以有效地缓解上述问题，超分出来的图像可以显著的提升文字识别算法的准确率。现有的工作大多只是将通用超分辨率算法应用于文本超分任务，较少的针对文本图像的上下文特性提出新的解决方案。同一张图像中，前景文本字符之间通常具有相似的纹理、颜色以及笔画特性。文字的边缘轮廓信息是比较具有辨识力的高频信息。因此，有必要针对上述特点提出新的文本超分辨率算法。

如何找出一种方法高效的提取视觉特征的上下文信息，同时能够自适应的重建高频信息是一项较为值得研究的问题。而深度学习的动机恰恰在于编码特征空间，让网络自适应的寻找上述信息的最优解，用这样的机制来解释数据。因此使用深度学习的方法来进行文本图像超分辨率成为可能。

专利CN 110415176 A提出了一种基于深度学习的文本图像超分辨率方法。此方法的目标是针对文档图像进行超分辨率，使用深度空域特征转换生成对抗网络(SFTGAN)对文本前景进行超分辨率，使用增强超分生成对抗网络(ESRGAN)对文档背景进行超分辨率操作，最后再将二者进行融合得到文档图像的超分辨率结果。这种方法在场景图像上不具备通用性，并且没有针对文本的特点建模上下文关系，仅使用了现有的通用超分辨率模型，因此难以在真实场景上取得较好的效果。

发明内容

本发明目的在于克服上述现有技术存在的缺陷，提供了一种文本图像超分辨率方法。

技术方案

一种文本图像超分辨率方法，其特征在于，采用平行双分支结构捕捉视觉上下文信息，并且自适应加权特征重建文本高频信息；

包括以下步骤：

1)图像预处理：由灰度图像均值将灰度图像二值化得到文字蒙版，将文字蒙版(M)叠加到图像上，得到RGBM的四通道低分辨率-高分辨率图像对；

2)模型训练：低分辨率RGBM被送入网络，首先经过文本矫正模块的处理，这个模块为文字识别的通用模块，用在文本超分辨率上主要是为了调整像素之间的偏移，使得网络优化的时候能够自适应对齐；紧接着，矫正后的特征将统一构建视觉上下文，这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成，并行正交上下文注意力模块旨在捕获视觉特征之间垂直和水平两组正交方向上的特征依赖关系，从而促进模型生成具有辨识力的超清图像；构建完视觉上下文以后的特征，即每个PCAB模块的输出被统一合并到一起，进一步在这些特征上构建正交纹理感知注意力，旨在提升网络编码高频信息的能力，自适应加权那些对重建高频信息有较大影响的特征；最后，经过两倍上采样和一次卷积，得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像；针对网络的训练，本方法提出了用边缘引导损失函数(自研)辅助L₂损失函数，以起到更好的图像超分辨率效果。

与现有技术相比，本发明具有以下优点：

一、本发明解耦了正交方向上下文特征之间的依赖，采用并行双分支，分别建模垂直和水平方向上的视觉上下文关系，并用通道注意力的方式加权两组信息，使网络具有更强编码视觉上下文信息的能力。

二、本发明在层级特征上构建全局注意力具有如下特点：参数量小、感受野大，使得网络能够更全面的加权特征，自适应地关注有助于重建高频信息的特征。

三、本发明提出了一种辅助训练策略，显式建模网络对于文本轮廓的关注度，强化对边缘轮廓细节的重建，使得超分辨率文本图像更清晰、稳定。

四、本发明仅占用少量的计算、存储资源，并能在低分辨率文本识别上起到较为显著的提升，同时有助于防止对抗攻击的干扰，一定程度上提升文字识别算法流程的安全性，方法简单易行。

附图说明

图1是本发明的实现流程图。

图2模型架构图

图3为本发明生成的超分辨率图像以及识别结果(灰度化显示)。

图4为本发明生成的超分辨率图像的细节比较(灰度化显示)。

具体实施方式

包括以下步骤：

2)模型训练：低分辨率RGBM被送入网络，首先经过文本矫正模块的处理，这个模块为文字识别的通用模块，用在文本超分辨率上主要是为了调整像素之间的偏移，使得网络优化的时候能够自适应对齐。紧接着，矫正后的特征将统一构建视觉上下文，这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成，并行正交上下文注意力模块旨在捕获视觉特征之间垂直和水平两组正交方向上的特征依赖关系，从而促进模型生成具有辨识力的超清图像。构建完视觉上下文以后的特征，即每个PCAB模块的输出被统一合并到一起，进一步在这些特征上构建正交纹理感知注意力，旨在提升网络编码高频信息的能力，自适应加权那些对重建高频信息有较大影响的特征。最后，经过两倍上采样和一次卷积，得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像。针对网络的训练，本方法提出了用边缘引导损失函数(自研)辅助L₂损失函数，以起到更好的图像超分辨率效果。

3)模型评估：将测试集图像输入模型中进行测试，选取主流的文字识别算法得到在文本超分辨率图像上的识别精度，识别算法的精度提升作为衡量本发明方法有效性的指标。

所述的步骤1)中，图像预处理具体包括以下步骤：

在同一张文本图像中，相邻字符通常具有颜色、纹理等一致性，然而字符前景与背景具有较大的反差。为了向超分辨率网络引入前背景的语义信息，取灰度图像像素值的平均值作为阈值，得到二值化蒙版(1表示前景，0表示背景)。将蒙版与RGB图像通道叠加，得到RGBM低分辨率-高分辨率图像对，为训练文本超分辨率网络做准备。

所述的步骤2)中，将训练集图像输入网络中进行训练，具体包括以下步骤(如图2所示)：

21)网络的第一个阶段(已有技术)是文本校正(薄板样条插值形状校正模块)。使用STN网络实现了薄板样条插值函数(TPS)的操作。首先，输入图像为16*64尺寸的RGBM低分图像，经过TPS-STN网络生成校正采样以后的采样矩阵，再从输入图像上做相应的采样得到16*64的同尺寸输出。

22)网络的第二个阶段(创新点)是构建视觉上下文(由五个并行正交上下文注意力模块稠密连接组成)。首先，经过一次卷积核大小为9*9，步长为1，边界填充为4的卷积操作，得到输出为64*16*64的特征层。将此特征以DenseNet稠密连接的模式送入五个并行正交上下文注意力模块(PCAB)，提取视觉特征的上下文关系。每个并行上下文注意力特征提取模块的输入尺寸为(T*64)*16*64,T表示当前块的序号。PCAB模块将先进行通道降维，经过一次3*3卷积，将(T*64)*16*64输入特征通道降维成64*16*64，然后先在模块内的主干分支上经过一次3*3的同型卷积处理，然后变成双分支结构，上下支路分别进行一次3*3的同型卷积，以及一次GRU运算构建垂直或水平方向上的循环连接，最终将双分支特征按通道维度堆叠在一起，得到尺寸为128*16*64的特征，此特征在后阶段经过一次通道注意力加权，再经一次卷积得到PCAB模块的输出结果。GRU模块构建视觉特征上下文的计算方法如下：

F_out＝f_c(Concat(O_h,O_v))

其中，H_t表示GRU中的隐藏层，下标t表示GRU中的时间步，X_r,X_h,X_v分别表示主干特征、上分支特征(构建水平方向视觉特征上下文)、下分支特征(构建垂直方向视觉特征上下文)，

表示GRU定义的矩阵运算；O_h,O_v分别表示经由GRU处理以后的上下分支特征，Concat表示按照通道方向上堆叠特征，并由f_c函数生成通道注意力权重对特征进行点乘加权，这里的做法和本领域已知的SENet中SE模块的做法一致，F_out表示通道加权以后的输出特征。

23)网络的第三个阶段(创新点)是在层级特征之上(即收集所有PCAB模块的输出特征)构建正交纹理感知注意力，旨在增加网络对特征的编码能力，使其能自适应的关注那些对高频信息重建有帮助的特征。此模块的实现如下：首先，将上一阶段五个并行正交上下文注意力模块的输出特征堆叠到一起得到(5*64)*16*64的特征图。在此基础上构建正交纹理感知注意力，主干特征经过两次1*1同型卷积，然后分为垂直方向纹理感知和水平方向纹理感知双分支。双分支分别采用1*K、K*1卷积作为基础(K表示卷积核尺寸，本发明的方法一般采用K为3)，结合不同大小的空洞系数(空洞系数dilation为1、2、3)，并且让同一类纹理感知的空洞卷积共享权重，降低参数量的同时扩大CNN的感知范围。将上下分支处理得到的特征通道堆叠得到尺寸为(6*5*64)*16*64的特征图(上下分支、以及每一分支有三种膨胀系数，因此有6倍特征)。然后此特征经过一次通道加权、一次1*1同型卷积通道降维、一次尺寸为8*8步长为2的最大池化、一次卷积、一次上采样、一次卷积、一次Sigmoid特征归一化，得到空间注意力权重张量，并与此模块的输入特征进行按位点乘，乘完的特征作为模块的输出。

24)最后，文本图像超分辨率被建模成为一种回归问题。由前面步骤得到特征先进行两倍上采样，再经过一次卷积核尺寸为9*9、边界补零为4的卷积运算得到整个网络的输出结果。网络输出与高分辨率RGBM之间采用L₂损失函数优化，同时使用边缘引导损失函数L_EG(本法创新点)进行辅助训练。该边缘引导损失函数借鉴了Sobel高通滤波算子，是一种端到端的卷积实现，显式地提取图像上的高频轮廓信息。网络的整体优化过程数学表达如下：

其中，L₂损失函数是本领域已知的一种回归损失，E_y表示对y求期望，

和y分别表示模型预测的超分辨率输出结果和高分辨率图像。f(x)函数的目的是显式地处理图像x上的垂直、水平纹理，得到一张边缘梯度响应图，W_h,W_v分别表示Sobel算子的水平、垂直方向上的滤波参数，实践过程中将其替换CNN的权重并且固定此权重，Conv(x，W)表示在输入为x的特征上进行参数为W的卷积运算，ε表示平滑系数。L_EG表示边缘引导损失函数，它度量的是超分辨率图像和高清图像之间轮廓高频信息的差值。L_total是总的优化方程，λ₁,λ₂分别作为最终优化目标的权重因子。

所述的步骤3)中，将测试集图像输入模型中进行测试，选取主流的文字识别算法得到在文本超分辨率图像上的识别精度，识别算法的精度提升作为衡量本发明方法有效性的指标。根据预测数据计算模型性能具体步骤如下：

31)计算文字识别算法的准确率。文字识别算法(ASTER、MORAN、CRNN等)输入为超分辨率图像，算法的输出为图片上文本内容的字符串表达形式。识别结果的准确率计算如下：

WRA＝|C|/|T|

其中，C表示识别结果正确的样本总数，T表示待识别的总样本量。文字超分辨率任务通过比较超分出来的图像和原图，在主流的文字识别算法(使用预训练模型)上的识别准确率差值，反映文字超分辨率算法的有效性。

32)计算超分辨率图像PSNR(Peak Signal-to-Noise Ratio)、SSIM(StructuralSIMilarity)通用指标：

PSNR的计算方法如下：

其中，高分辨率图像用I表示，超清图像用K表示，二者的尺寸均为m*n。

表示高分辨率图像I中可能的最大像素值，如果每个像素用8位二进制表示，那么当前值为255，如果针对浮点型图像数据，当前值为1。

SSIM基于输出图像x和标签y之间的亮度、对比度和结构做度量，其计算方法如下：

c₁＝(k₁L)²，c₂＝(k₂L)²，c₃＝c₂/2

其中，μ_x,μ_y分别表示图像x和y的均值，

分别表示图像x和y的方差，σ_xσ_y分别表示图像x和y的标准差，σ_xy表示图像x和y的协方差，c₁，c₂,c₃分别表示三个常数，L为像素值的范围(1或者255)，k₁k₂为常数，k₁通常取0.01，k₂通常取0.03。

图1是本发明的实现流程图，具体实施方式如下：

1.对低分辨率、高分辨率图像同时进行预处理，得到新的包含语义蒙版的RGBM彩图作为低分-高分成对数据；

2.将成对数据中的低分辨率RGBM图像送入网络，得到两倍长宽、四通道输出特征；

3.用L2损失和边缘引导损失函数计算输出特征与高分辨率RGBM图像的损失，采用梯度下降算法反向传播，对网络参数进行更新。

4.将测试集低分辨率图像输入训练好的模型，得到相应的超分辨率图像。并加载主流的文字识别算法，识别超分辨率图像。

5.根据测试结果计算文字识别算法的识别精度，同时计算超分图像和高清图像的SSIM值、PSNR值。

表1-表2为本发明算法与其他算法的性能比较。

表1本发明算法同其它算法在TextZoom公开数据集上文字识别精确度比较。分别用ASTER、MORAN、CRNN(三种主流的文字识别算法)的识别精度作为度量指标。

表2本发明算法同其它算法在TextZoom公开数据集上超分图像指标比较。

Claims

1.一种文本图像超分辨率方法，其特征在于，采用平行双分支结构捕捉视觉上下文信息，并且自适应加权特征重建文本高频信息；

包括以下步骤：

2)模型训练：低分辨率RGBM被送入网络，首先经过文本矫正模块的处理；紧接着，利用矫正后的特征统一构建视觉上下文，这个部分由稠密连接的五个并行正交上下文注意力模块(PCAB)组成；然后，每个PCAB模块的输出被统一合并到一起，进一步在这些特征上构建正交纹理感知注意力，自适应加权那些对重建高频信息有较大影响的特征；最后，经过两倍上采样和一次卷积，得到最终尺寸为4*(2H)*(2W)的输出超分辨率RGBM图像。

2.如权利要求书1所述一种文本图像超分辨率方法，其特征在于，所述的步骤1)中，图像预处理具体包括以下步骤：

取灰度图像像素值的平均值作为阈值，得到二值化蒙版(1表示前景，0表示背景)；将蒙版与RGB图像通道叠加，得到RGBM低分辨率-高分辨率图像对，为训练文本超分辨率网络做准备。

3.如权利要求书1所述一种文本图像超分辨率方法，其特征在于，所述的步骤2)中，将训练集图像输入网络中进行训练，具体包括以下步骤：

21)网络的第一个阶段是文本校正(薄板样条插值形状校正模块)；使用STN网络实现了薄板样条插值函数(TPS)的操作；首先，输入图像为16*64尺寸的RGBM低分图像，经过TPS-STN网络生成校正采样以后的采样矩阵，再从输入图像上做相应的采样得到16*64的同尺寸输出；

22)网络的第二个阶段是构建视觉上下文(由五个并行正交上下文注意力模块稠密连接组成)；首先，经过一次卷积核大小为9*9，步长为1，边界填充为4的卷积操作，得到输出为64*16*64的特征层；将此特征以DenseNet稠密连接的模式送入五个并行正交上下文注意力模块(PCAB)，提取视觉特征的上下文关系；每个并行上下文注意力特征提取模块的输入尺寸为(T*64)*16*64,T表示当前块的序号；PCAB模块将先进行通道降维，经过一次3*3卷积，将(T*64)*16*64输入特征通道降维成64*16*64，然后先在模块内的主干分支上经过一次3*3的同型卷积处理，然后变成双分支结构，上下支路分别进行一次3*3的同型卷积，以及一次GRU运算构建垂直或水平方向上的循环连接，最终将双分支特征按通道维度堆叠在一起，得到尺寸为128*16*64的特征，此特征在后阶段经过一次通道注意力加权，再经一次卷积得到PCAB模块的输出结果；GRU模块构建视觉特征上下文的计算方法如下：

F_out＝f_c(Concat(O_h，O_v))

其中，H_t表示GRU中的隐藏层，下标t表示GRU中的时间步，X_r，X_h，X_v分别表示主干特征、上分支特征(构建水平方向视觉特征上下文)、下分支特征(构建垂直方向视觉特征上下文)，

表示GRU定义的矩阵运算；O_h，O_v分别表示经由GRU处理以后的上下分支特征，Concat表示按照通道方向上堆叠特征，并由f_c函数生成通道注意力权重对特征进行点乘加权，F_out表示通道加权以后的输出特征；

23)网络的第三个阶段是在层级特征之上(即收集所有PCAB模块的输出特征)构建正交纹理感知注意力，此模块的实现如下：首先，将上一阶段五个并行正交上下文注意力模块的输出特征堆叠到一起得到(5*64)*16*64的特征图；在此基础上构建正交纹理感知注意力，主干特征经过两次1*1同型卷积，然后分为垂直方向纹理感知和水平方向纹理感知双分支；双分支分别采用1*K、K*1卷积作为基础(K表示卷积核尺寸，一般采用K为3)，结合不同大小的空洞系数(空洞系数dilation为1、2、3)，并且让同一类纹理感知的空洞卷积共享权重，降低参数量的同时扩大CNN的感知范围；将上下分支处理得到的特征通道堆叠得到尺寸为(6*5*64)*16*64的特征图(上下分支、以及每一分支有三种膨胀系数，因此有6倍特征)；然后此特征经过一次通道加权、一次1*1同型卷积通道降维、一次尺寸为8*8步长为2的最大池化、一次卷积、一次上采样、一次卷积、一次Sigmoid特征归一化，得到空间注意力权重张量，并与此模块的输入特征进行按位点乘，乘完的特征作为模块的输出；

24)最后，文本图像超分辨率被建模成为一种回归问题；由前面步骤得到特征先进行两倍上采样，再经过一次卷积核尺寸为9*9、边界补零为4的卷积运算得到整个网络的输出结果；网络输出与高分辨率RGBM之间采用L₂损失函数优化，同时使用边缘引导损失函数L_EG进行辅助训练；网络的整体优化过程数学表达如下：

和y分别表示模型预测的超分辨率输出结果和高分辨率图像；f(x)函数用于显式地处理图像x上的垂直、水平纹理，得到一张边缘梯度响应图，W_h，W_v分别表示Sobel算子的水平、垂直方向上的滤波参数，实践过程中将其替换CNN的权重并且固定此权重，Conv(x，W)表示在输入为x的特征上进行参数为W的卷积运算，ε表示平滑系数，L_EG表示边缘引导损失函数，它度量的是超分辨率图像和高清图像之间轮廓高频信息的差值，L_total是总的优化方程，λ₁，λ₂分别作为最终优化目标的权重因子。