CN114140786A

CN114140786A - 基于HRNet编码与双分支解码的场景文本识别方法

Info

Publication number: CN114140786A
Application number: CN202111466876.1A
Authority: CN
Inventors: 李秀梅; 李美玲; 孙军梅
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-04
Anticipated expiration: 2041-12-03
Also published as: CN114140786B

Abstract

本发明公开一种基于HRNet编码与双分支解码的场景文本识别方法。传统的深度学习方法进行场景文本识别在遇到文本扭曲、图像模糊和低分辨率问题时，识别准确率有所下降。本发明将单张场景原始文本图像经过随机高斯模糊后，获得低分辨率图像；搭建基于HRNet编码与双分支解码的场景文本识别模型，所述基于HRNet编码与双分支解码的场景文本识别模型包括修正网络TPS、编码模块、超分分支和识别分支。本发明方法通过引入HRNet编码和双分支解码，提高了模型对于模糊和低分辨率的图像的识别准确率，且在测试时舍弃超分分支的方式降低了模型参数量及时间消耗。

Description

基于HRNet编码与双分支解码的场景文本识别方法

技术领域

本发明涉及计算机视觉及图像文本识别技术领域，具体涉及一种基于HRNet编码与双分支解码的场景文本识别方法。

背景技术

场景文本识别旨在自动识别自然场景图像中的文本内容，不同于规则的文档文本，自然场景图像中的文本具有形态多变、背景复杂、文字扭曲、图像模糊等特点。早期的场景文本识别模型通常基于时序特征分类，运用深度卷积网络VGG提取图像特征序列，利用循环神经网络RNN学习特征序列的双向依赖关系，并预测得到文本字符序列概率，最后通过连续时序分类转录层，根据提前定义的预测结果转换方式，将预测的字符概率序列转录为文本。然而，CRNN中转录层的设定要求图像特征序列和文本字符序列之间彼此对齐，这种不变性不利于预测具有空间依赖关系的文本序列。基于编解码框架的模型可以训练预测任意两个序列之间的对应关系，通常运用编码网络提取文本图像中的视觉特征，并借助循环神经网络，将视觉特征转换为固定长度的中间语义特征序列，进而通过解码网络，将特征序列解码为文本字符序列。然而场景文本图像通常会受到不同来源、不同程度的因素干扰，如背景复杂、文本扭曲等，这常常使得编码网络提取的视觉特征存在信息丢失的问题，进而导致解码器在嘈杂的解码时间戳中识别目标序列不够准确。虽然现有的方法对场景文本识别有着不错的效果，但是仍然不能满足场景文本识别的精度要求。

发明内容

本发明的目的在于提出一种基于HRNet编码与双分支解码的场景文本识别方法，针来文本扭曲、图像模糊和低分辨率等问题进行改进，以提高基于深度学习方法的场景文本识别效果。

一种基于HRNet编码与双分支解码的场景文本识别方法，具体如下：

步骤一、构建训练集

将单张场景原始文本图像经过随机高斯模糊后，获得低分辨率图像，并进行人工标注真实文本标签，所述真实文本标签为图像中的文本；同时将对应原始文本图像作为高分辨率图像，并作为真实图像标签；

步骤二、模型建立和训练

2-1搭建基于HRNet编码与双分支解码的场景文本识别模型

所述基于HRNet编码与双分支解码的场景文本识别模型包括修正网络TPS、编码模块、超分分支和识别分支；

所述修正网络TPS用于对输入的低分辨率图改善文本形变、扭曲等问题，以使编码网络提取的视觉信息更充分；

所述编码模块用于对低分辨图像进行特征提取获得视觉特征，输入为修正网络TPS的输出图像，输出为多种不同分辨率特征图；其包括HRNet网络、监督注意力模块SAM；

所述HRNet网络在整个过程中一直保持高分辨率表征，以高分辨率子网作为第一阶段，逐个添加从高到低的多分辨率子网，以形成更多阶段，并行连接高低分辨率子网，并在整个过程中反复交换并行多分辨率子网中的信息，以进行重复的多特征融合，最终获得多种不同分辨率特征图；

所述监督注意力模块通过一系列卷积操作将修正网络TPS的输出图像与HRNet网络输出的最高分辨率特征图进行相加操作，即在所有分辨率特征图上实现输入图像的监督，继而利用激活函数获得注意力图，并重新将注意力图与最高分辨率特征图加权求和，以此增强重要特征学习，抑制信息量较小的特征；

所述超分分支用于编码模块输出的最高分辨率特征图，通过转置卷积上采样，生成超分辨率图像；其包括转置卷积(TransConv2D)上采样模块；

所述转置卷积上采样模块包括依次级联的三次3×3反卷积、BatchNorm层和Relu层；

所述识别分支用于对编码模块输出的所有不同分辨率特征图，通过独立转置卷积层(Independent TransConv2D Layers)，将较低分辨率特征图进行尺寸扩张，最终使得多尺度特征图在通道维度上进行拼接融合，并运用解码器对拼接融合后的特征图进行解码，获得文本识别结果；其包括独立转置卷积层、解码器；

为实现从视觉特征到文本特征的有效序列转换，对多尺度特征图采用HRNet网络中3×3基础卷积模块进行处理，实现通道数的调整而不改变特征图尺寸，然后进行特征图维度的重排列，即将通道维度与特征图宽度维度转换，进而将二维特征矩阵转化为一维特征向量，并通过Bi-LSTM网络加强一维特征向量的文本语义信息，最终采用基于注意力机制的循环神经网络GRU进行解码，识别出场景图像对应的字符文本。识别的文本与真实文本标签进行序列交叉熵损失计算，以监督解码器的解码效果和编码模块的特征提取效果，整体上提升场景文本识别准确率。

2-2.模型训练

利用步骤一训练集对上述基于HRNet编码与双分支解码的场景文本识别模型进行训练；

步骤三：使用任意真实场景文本图像数据集对模型进行测试，并在测试时舍弃超分分支以减少参数量和时间消耗，仅获得文本识别结果；

步骤2-2中超分分支训练过程损失函数采用平均绝对误差损失；

其中L_sr表示超分分支损失，W和H代表超分分支的输出超分辨率图像的宽和高，O代表超分分支的输出超分辨率图像，I代表真实图像标签；

识别分支训练过程损失函数采用序列交叉熵损失：

其中L_SCE表示识别分支损失，M代表一个batch中的样本数量，N代表文本字符数，y表示真实文本标签，s表示模型识别结果；

最终基于HRNet编码与双分支解码的场景文本识别模型的损失函数：

L＝λ₁L_sr+λ₂L_SCE (3)

其中；λ₁为超分分支损失对应权重参数，λ₂为识别分支损失对应权重参数。

本发明的有益效果如下：

1、本发明方法针对文本扭曲、图像模糊和低分辨率等问题，提出一种基于HRNet编码和双分支解码框架的场景文本识别模型，该模型在编解码框架的基础上创新性地引入HRNet作为基础编码网络，并引入监督注意力模块加强重要特征学习，编码末端将最高分辨率特征图输入超分分支，进行恢复超分辨率图像任务，以监督编码模块的特征提取效果；通过独立转置卷积层，融合编码末端多尺度特征图，并将融合后的特征图输入识别分支进行解码，最终获得文本内容。该方法易于实现，模型参数量较低，具有更好的准确率和泛化能力。

2、本发明采用HRNet网络既能实现特征提取功能，并且无需引入额外的网络就能为超分分支提供高分辨率特征图，减少了网络复杂度，同时超分分支仅在训练时保留，在测试时舍弃的方式，进一步减少了模型参数量和时间消耗，同时超分分支损失反向传播能进一步改进编码模块特征提取的效果。结合监督注意力模块可以充分加强特征图中重要信息的学习，抑制信息量少的特征，增加最高分辨率特征图的有效信息量，为超分分支和识别分支提供有效输入。针对每种分辨率特征图进行独立转置卷积层相较于双线性插值方法会充分提取文本信息，减少特征丢失，提升上采样效果，进而提高识别准确率。

附图说明

图1是本发明中基于HRNet编码与双分支解码的场景文本识别模型结构图；

图2是本发明中编码模块网络结构图；

图3是本发明中监督注意力模块结构图；

图4是本发明中识别分支多尺度融合结构图；

图5是本发明中各消融模型识别效果比较图。

具体实施方式

下面结合具体实施例对本发明做进一步分析。

一种基于HRNet编码和双分支解码框架的场景文本识别方法，采用的模型包括修正网络TPS、编码模块、超分分支和识别分支。编码模块包括HRNet网络、监督注意力。超分分支包括转置卷积(TransConv2D)上采样。识别分支包括独立转置卷积层(IndependentTransConv2D Layers)进行多尺度融合、基于注意力解码获得文本字符。编码模块用于对单张场景文本图像进行特征提取获得视觉特征，得到四种分辨率特征图；超分分支用于编码模块输出的最高分辨率特征图，通过转置卷积上采样，生成超分辨率图像；识别分支用于对四种分辨率特征图，通过独立转置卷积层，将较低分辨率特征图进行尺寸扩张，使得最终多尺度特征图能在通道维度上进行拼接融合，并运用解码器对融合后的特征图进行解码，获得文本识别结果。

该基于HRNet编码和双分支解码框架的场景文本识别方法，具体步骤如下：

步骤一、数据集处理。

训练数据为公开合成数据集Synth90K、SynthText，测试数据为7种真实场景图像数据的测试集，而验证集为7种真实场景数据的训练集。7种真实场景图像数据集具体如下：IIIT5k-Words(IIIT5k)为Google图像搜索中相对规则的广告牌、海报等文本图像；StreetView Text(SVT)为Google Street View中具有变化性、分辨率较低的室外街景图像；ICDAR2003(IC03)为ICDAR会议基于竞赛公布的数据集，排除少于三个字符或者非字母数字的相对规则文本图像；ICDAR2013(IC13)大部分取自IC03，扩充了一些路标、书籍封面等清晰文本图像；ICDAR 2015Incidental Text(IC15)大部分为随机拍摄的模糊、被遮挡的街头或商场图像；SVT-Perspective(SVTP)为Google Street View中成像扭曲、透视干扰的文本图像；CUTE80以真实场景下扭曲的文本图像为主。

网络输入图像数据为三通道RGB图像，尺寸统一为64×256，经过TPS修正网络后图像尺寸统一为32×100。因超分分支的任务设定，需成对的低分辨率图像和高分辨率图像，故本文将输入图像经过随机高斯模糊后作为低分辨率图像，原始图像作为高分辨率图像，模拟超分辨率网络恢复过程。

步骤二、模型训练

2-1.模型搭建

如图1所示，搭建的场景文本识别模型包括修正网络TPS，编码模块，超分分支和识别分支。

修正网络TPS对输入图像进行采样拉伸，改善文本形变、扭曲等问题，以使编码网络提取的视觉信息更充分。

编码模块用于对输入的单张低分辨率场景文本图像进行特征编码，如图2所示，包括HRNet网络和监督注意力模块。HRNet网络用于对修正后的图像进行特征编码，在整个过程中一直保持高分辨率表征，以高分辨率子网作为第一阶段，逐个添加从高到低的多分辨率子网，以形成更多阶段，并行连接高低分辨率子网，并在整个过程中反复交换并行多分辨率子网中的信息，来进行重复的多特征融合。编码模块末端，针对HRNet输出的四种分辨率特征图中最高分辨率特征图，运用监督注意力模块，强化重要特征信息学习，且通过注意力掩码抑制信息量较小的特征，从而使编码模块传递给各分支模块自身学习到的最有效特征信息。如图3所示，监督注意力模块通过一系列卷积和sigmoid激活函数实现，特征图通过1×1卷积操作与输入图像进行相加操作，即在特征图上实现输入图像的监督，继而利用激活函数获得注意力图，并重新将注意力图与特征图加权求和，以此增强重要特征学习，抑制信息量较小的特征。

超分分支用于对监督注意力模块优化后的最高分辨率特征图进行转置卷积上采样，来恢复超分辨率图像。转置卷积由三次3×3反卷积、BatchNorm层和Relu层构成，恢复的超分辨图像与真实图像进行平均绝对误差损失Lsr计算，如式(1)：

其中W和H代表图像的宽和高，O代表超分分支的输出超分辨率图像，I代表真实图像标签。

识别分支用于对所有特征图中较低分辨率特征图进行独立转置卷积层操作，改变以往借助双线性插值进行特征图尺寸扩张的方式，以此获得与最高分辨率特征图相同尺寸大小的特征图，进而在通道维度上通过拼接的方式进行多尺度融合，如图4所示，其中特征图分辨率由上到下依次降低，单个独立转置卷积层(Independent TransConv2D Layer)的输入通道数和输出通道数根据相应的特征图而定。融合的结果通过通道注意力机制，为不同尺度的特征通道分配权重，抑制低效通道特征，增强高效通道特征，以获得更有效的多尺度特征图。

为实现从视觉特征到文本特征的有效序列转换，对多尺度特征图采用HRNet网络中3×3基础卷积模块进行处理，实现通道数的调整而不改变特征图尺寸，然后进行特征图维度的重排列，即将通道维度与特征图宽度维度转换，进而将二维特征矩阵转化为一维特征向量，并通过Bi-LSTM网络加强一维特征向量的文本语义信息，最终采用基于注意力机制的循环神经网络GRU进行解码，识别出场景图像对应的字符文本。识别的文本与真实文本标签进行序列交叉熵损失计算，如式(2)，以监督解码器的解码效果和编码模块的特征提取效果，整体上提升场景文本识别准确率。

最终本文模型的损失函数如式(3)所示，其中；λ₁为超分分支损失对应权重参数，λ₂为识别分支损失对应权重参数；

L＝λ₁L_sr+λ₂L_SCE (3)

2-2.模型训练

将单张场景文本图像输入到步骤2-1记载的模型中进行训练。训练后的模型能够对任意真实场景文本图像进行文本识别。所得97类字符概率值，字符类别数采用ALLCASES_SYMBOLS形式，包含大小写字母、0-9数字、标点符号和EOS末位、PADDING补充字符、UNKNOWN未知的三个特殊字符。

步骤三、将单张真实场景文本图像输入模型中，输出将为该场景文本图像所对应的文本字符，将该识别结果显示出来。

步骤四、模型实验效果对比。

如表1所示，步骤2-1记载的模型在多种真实场景数据集上达到更好效果，平均准确率为88.7％，高于其他模型识别效果。相比于ASTER经典模型平均准确率提升2.6％，相比于运用额外超分辨率网络进行预处理且计算量更大的TextSR平均准确率提升3.6％，相比于运用Transformer进行信息增强及解码的Bi-STET平均准确率提升1.3％，相比于引入GAN网络进行缓解背景干扰的SCGAN平均准确率提升0.5％，并且在文本扭曲、图像模糊、识别难度较大的IC15和SVTP数据集上，本模型能达到较好水平。

如表2所示，Baseline基线模型采用HRNet作为特征提取网络，并逐步添加改进方法进行消融实验，并且超参数设置始终保持一致。与表1中经典模型ASTER以ResNet作为特征提取网络相比，Baseline采用HRNet网络能提高平均准确率0.3％，在相对不规则、模糊数据集IC15、SVTP和CUTE80上有效提高了识别准确率，且便于超分分支对于高分辨率特征图的提取。与Baseline相比，本文添加超分分支在真实场景上平均准确率提升0.4％，监督注意力模块强化重要特性的学习，可进一步提升平均准确率1.2％，且在单项测试集识别结果上都有所提高。超分分支中利用转置卷积上采样恢复超分辨率图像，平均准确率提升了0.3％。

表1本发明与现有其他模型准确率比较

注：加粗字体为每列最优值，下划线字体为每列次优值。

表2本发明各消融模型准确率比较

如图5所示，实验数据选用表1中相对排列不规则、图像模糊率较高的IC15、SVTP和CUTE80三种测试集，每张图片下方文字内容均按小写字母输出，第一行依次为真实文本标签、Baseline和在Baseline上运用超分分支的识别结果，第二行依次为继续运用监督注意力模块、转置卷积和本发明最终模型的识别结果。从识别结果可以看出，Baseline模型存在对于个别字符识别错误或无法识别的问题，但逐步运用超分分支、监督注意力模块及独立转置卷积层的改进方法，能有效地识别出相对较难识别的字符，最终本发明模型能获得较好的识别结果。

Claims

1.基于HRNet编码与双分支解码的场景文本识别方法，其特征在于该方法包括以下步骤：

步骤一、构建训练集

步骤二、模型建立和训练

2-1搭建基于HRNet编码与双分支解码的场景文本识别模型

所述HRNet网络以高分辨率子网作为第一阶段，逐个添加从高到低的多分辨率子网，以形成更多阶段，并行连接高低分辨率子网，并在整个过程中反复交换并行多分辨率子网中的信息，以进行重复的多特征融合，最终获得多种不同分辨率特征图；

所述监督注意力模块通过一系列卷积操作将修正网络TPS的输出图像与HRNet网络输出的最高分辨率特征图进行相加操作；

所述超分分支用于编码模块输出的最高分辨率特征图，通过转置卷积上采样，生成超分辨率图像；

所述识别分支用于对编码模块输出的所有不同分辨率特征图，通过独立转置卷积层将较低分辨率特征图进行尺寸扩张，使得多尺度特征图在通道维度上进行拼接融合，并运用解码器对拼接融合后的特征图进行解码，获得文本识别结果；

2-2模型训练

步骤三：使用任意真实场景文本图像数据集对训练好的基于HRNet编码与双分支解码的场景文本识别模型进行测试，并在测试时舍弃超分分支，获得文本识别结果。

2.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法，其特征在于所述监督注意力模块中卷积操作采用1×1卷积；激活函数采用sigmoid激活函数。

3.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法，其特征在于步骤2-2中超分分支训练过程损失函数采用平均绝对误差损失；

识别分支训练过程损失函数采用序列交叉熵损失：

L＝λ₁L_sr+λ₂L_SCE (3)

4.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法，其特征在于所述超分分支包括转置卷积上采样模块；所述转置卷积上采样模块包括依次级联的三次3×3反卷积、BatchNorm层和Relu层。

5.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法，其特征在于所述识别分支包括独立转置卷积层、解码器。