CN116434241A

CN116434241A - 基于注意力机制的自然场景图像中文本识别方法及系统

Info

Publication number: CN116434241A
Application number: CN202310120821.8A
Authority: CN
Inventors: 熊炜; 孙鹏; 强观臣; 田紫欣; 陈奕博; 赵迪; 刘粤; 万相奎
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-07-14

Abstract

本发明公开了一种基于注意力机制的自然场景图像中文本识别方法及系统，一种无需校正或分割的方法，通过搭建多级Efficient Swin Transformer网络提取丰富的全局特征，实现不同窗口特征之间的信息交互,对全局信息进行建模，并且嵌入通道注意力突出某些重要通道的特征。后经注意力机制得到视觉特征，使得网络将关注的焦点置于特征图的文本区域，提高了网络的特征提取能力；其次通过语义推理模块考虑字符上下文信息，对文本序列进行建模得到语义特征，提升了网络的预测能力；最后使用双特征融合单元融合不同模态的视觉、语义特征，并分类得到最终的文本识别结果，有效地避免了分割字符的缺陷，同时考虑到了字符与字符之间的内在联系。

Description

基于注意力机制的自然场景图像中文本识别方法及系统

技术领域

本发明属于数字图像处理、计算机视觉技术领域，涉及一种自然场景图像中文本识别方法及系统，具体涉及一种基于注意力机制的针对自然场景文本图像中识别文本的方法及系统。

背景技术

在人们日常生活中有着许多重要的文本信息，提取其中蕴含的信息能够提高生活品质。比如在自动驾驶中离不开标识牌中的限速信息、道路信息、交通灯信号时间；在搜索引擎中需要根据图像中的文本信息进行分类，用户输入搜索信息即可轻易得到相应的图像等等，因此文本识别变得尤为重要。对于文本图像中文本信息单一，并且图像清晰度高，采用传统的OCR方式就可以识别，不过该方法需要人工去设计特征，再进行识别。通常自然场景下，文本的字形、颜色、大小、位置，不具有规则，甚至图像清晰度低，传统方法已不能达到较高的识别率。

目前对于自然场景文本识别主要采用深度学习的方法，大体可分为规则文本的识别以及不规则的文本识别。对于规则文本的识别方法主要有基于CTC(connectionisttemporal classification)、序列到序列的方法，这两种文本方法对于弯曲文本或者旋转文本的识别准确率低。对于不规则文本的识别方法主要有：校正方法，将不规则文本图像经过薄样板插条或者空间变换网络变换成一个水平方向的图像，然后以规则文本的方式进行处理；分割方法，即先获取文本图像中每个字符的位置信息，分割出单个字符视觉特征，接着对特征进行分类识别出字符，最后将所有的字符连接起来得到识别结果。校正的方法往往引起字符的扭曲变形，导致字符识别错误；分割方法的识别需要字符级的标注，并且性能容易受到字符分割结果的影响，错误地分割会导致错误地识别字符，甚至无法识别。如今，越来越多的研究员采用基于注意力的方法识别不规则文本避免校正和分割。

发明内容

为了解决规则的文本识别方法对于不规则文本识别正确率低，而通过校正或者分割的方法实现对不规则文本的识别，往往代价较大，并且忽视了文本序列中字符与字符之间的内在联系的技术问题，本发明提供了一种基于注意力机制的自然场景文本识别方法、系统及电子设备。

本发明的方法所采用的技术方案是：一种基于注意力机制的自然场景图像中文本识别方法，采用自然场景文本识别网络，对自然场景图像中文本进行识别；

所述自然场景文本识别网络，包括多级视觉特征提取模块efficient SwinTransformer、视觉注意力模块DUnet Attention、语义推理模块Semantic ReasoningBlock、双特征融合单元DFFU；

所述多级视觉特征提取模块efficient Swin Transformer，用于输出全局特征F；包括分块层Patch Partition、线性嵌入层Linear Embeding、Swin Transformer Block层、ECA模块；其中，若干所述高效通道注意力ECA模块和所述SwinTransformerBlock层级联连接，级联方式为在SwinTransformerBlock层后嵌入高效通道注意力ECA模块；所述SwinTransformer Block层由顺序连接的基于窗口的多头自注意力模块W-MSA、多层感知机MLP、基于移动窗口多头自注意力模块SW-MSA和多层感知机MLP组成，在所述W-MSA模块、MLP以及SW-MSA模块前都设置有LN模块，组成四个小单元，每个小单元通过残差方式连接；

所述视觉注意力模块DUnet Attention，由V、Q、K三个分支组成，得到视觉特征F_v；所述V分支由全局特征F线性变换得到，经过全连接层Linear后输出；所述Q分支通过位置编码层Positional Encoding得到，经过全连接层Linear后输出；所述K分支由全局特征F依次经过一个可变形卷积Deformable Conv、DUnet网络得到；所述Q、K分支输出经过逐位乘法操作后的输出与V分支输出经过逐位乘法操作后输出；

所述视觉特征F_v，经过全连接层Linear和归一化操作层softmax求得字符的概率特征F_p，根据字符预测顺序设置字符掩码矩阵M_mask，将F_p和M_mask输入所述语义推理模块Semantic Reasoning Block；所述语义推理模块Semantic Reasoning Block，包括掩码多头自注意力模块Masked Multi-Head Attention、标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax，得到语义特征F_s；所述概率特征F_p和掩码矩阵M_mask经过所述掩码多头自注意力模块Masked Multi-HeadAttention得到特征F_m，依次经过标准化层Normalize、前馈连接层Feed Forward、标准化层Normalize、全连接层Linear及归一化操作层softmax，并且概率特征F_p以残差方式连接到所述的标准化层Normalize，在所述前馈连接层Feed Forward前以残差方式连接到下一个标准化层Normalize；

所述双特征融合单元DFFU，用于融合视觉特征F_v和语义特征F_s，对视觉特征F_v、语义特征F_s分别经过全连接层Linear后进行拼接操作，通过Sigmod函数计算各特征的贡献比重，融合视觉特征和语义特征，输出融合后的特征F_f。

本发明的系统所采用的技术方案是：一种基于注意力机制的自然场景图像中文本识别系统，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于注意力机制的自然场景图像中文本识别方法。

与现有算法相比，本发明的显著优点和效果如下：

1)本发明设计多级efficient Swin Transformer特征提取网络，实现不同窗口特征之间的信息交互,对全局信息进行建模，并且嵌入通道注意力突出某些重要通道的特征。

2)本发明设计了注意力机制使得网络将关注的焦点置于特征图的文本区域，提高了网络的特征提取能力。

3)本发明使用语义推理模块对文本序列建模，提升了网络的预测能力，尤其是对不规则文本数据集的字符识别准确率提升较大。

4)本发明对规则文本数据集IC13、SVT、IIIT5K的平均识别准确率为93.5％；对不规则文本数据集IC15、SVTP、CUTE的平均识别准确率为83.8％。

附图说明

图1为本发明实施例的自然场景文本识别网络结构图；

图2为本发明实施例的多级efficientSwinTransformer结构图；

图3为本发明实施例的视觉注意力模块DUnet Attention结构图；

图4为本发明实施例的语义推理模块Semantic Reasoning Block结构图；

图5为本发明实施例的双特征融合单元DFFU结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种基于注意力机制的自然场景图像中文本识别方法，采用自然场景文本识别网络，对自然场景图像中文本进行识别；

请见图1，本实施例的自然场景文本识别网络，包括多级视觉特征提取模块efficient Swin Transformer、视觉注意力模块DUnet Attention、语义推理模块SemanticReasoning Block、双特征融合单元DFFU；

请见图2，本实施例的多级视觉特征提取模块efficient Swin Transformer，用于输出全局特征F；包括分块层Patch Partition、线性嵌入层Linear Embeding、SwinTransformer Block层、ECA模块；其中，若干高效通道注意力ECA模块和SwinTransformerBlock层级联连接，级联方式为在SwinTransformerBlock层后嵌入高效通道注意力ECA模块；本实施例的Swin Transformer Block层由顺序连接的基于窗口的多头自注意力模块W-MSA、多层感知机MLP、基于移动窗口多头自注意力模块SW-MSA和多层感知机MLP组成，在W-MSA模块、MLP以及SW-MSA模块前都设置有LN模块，组成四个小单元，每个小单元通过残差方式连接；

本实施例的本实施例将大小为H×W的输入图像划分为H/4×W/4个小块，每个小块由4×4个像素组成，线性嵌入层Linear Embeding将输入图像的通道维度变成预先设置好的值即512，Swin Transformer Block提取输入图像空间上的细粒度特征；为了挖掘通道上的重要信息，在Swin Transformer Block之后以残差的方式嵌入ECA，使网络重点关注某些通道特征。Swin Transformer是在Transformer的基础上进行改进的，对输入图像进行窗口划分，通过移动窗口的方式，实现不同窗口区域间的远程信息交互，因此不仅可以对全局信息进行建模，相比于Transformer具有更强特征提取能力。本实施例的Swin Transformer由层归一化(Layer Normalization,LN)、基于窗口的多头自注意力(Window-based Multi-head Self-attention,W-MSA)、多层感知机(Multi-layer Perceptron,MLP)以及基于移动窗口多头自注意力(Shifted Window-based Multi-head Self-attention,SW-MSA)组成，结构如图2右侧所示。在W-MSA、MLP以及SW-MSA模块前都添加了LN模块，组成四个小单元，每个小单元通过残差的方式连接。对于输入特征数据X从第i级到第i+1级计算公式如下：

式中，i表示层号，

Xⁱ分别表示第i层W-MSA、MLP输出的特征，/>

Xⁱ⁺¹则分别表示第i+1层SW-MSA、MLP输出的特征。

请见图3，本实施例的视觉注意力模块DUnet Attention，由V、Q、K三个分支组成，得到视觉特征F_v；本实施例的V分支由全局特征F线性变换得到，经过全连接层Linear后输出；本实施例的Q分支通过位置编码层Positional Encoding得到，经过全连接层Linear后输出；本实施例的K分支由全局特征F依次经过一个可变形卷积Deformable Conv、DUnet网络得到；本实施例的Q、K分支输出经过逐位乘法操作后的输出与V分支输出经过逐位乘法操作后输出；

请见图3，本实施例的DUnet网络,输入特征依次经过三个下采样和三个上采，每个下采样后以残差的方式经过1×1卷积层1×1Conv后连接到对应的上采样层Up-sampling，所述下采样由空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成，上采样由上采样层Up-sampling、空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成。

本实施例的V、Q、K三个分支输出分别为：

V(F)＝FW_v (5)

Q＝PW_p (6)

K(F)＝DUnet(DConv(F)+F) (7)

其中，W_v及W_p是网络需要学习的矩阵、pos为字符在文本序列中的位置，d为P(pos,d_i)的维度，d_i为字符向量的位置、k为自然数，2k表示偶数，2k+1表示奇数、P(pos,d_i)为位置编码矩阵。

请见图4，本实施例的视觉特征F_v，经过全连接层Linear和归一化操作层softmax求得字符的概率特征F_p，根据字符预测顺序设置字符掩码矩阵M_mask，将F_p和M_mask输入本实施例的语义推理模块Semantic Reasoning Block；本实施例的语义推理模块SemanticReasoning Block，包括掩码多头自注意力模块Masked Multi-Head Attention、标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax，得到语义特征F_s；概率特征F_p和掩码矩阵M_mask经过所述掩码多头自注意力模块Masked Multi-Head Attention得到特征F_m，依次经过标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax，并且概率特征F_p以残差方式连接到所述的标准化层Normalize，在所述前馈连接层FeedForward前以残差方式连接到下一个标准化层Normalize。

本实施例的语义推理模块Semantic Reasoning Block的掩码多头自注意力模块Masked Multi-Head Attention输出F_m；

其中：

F_p＝softmax(F_vW₁) (9)

其中，F_v为视觉特征，d为多头自注意力的维度，W_i为训练得到的变换矩阵，i＝{1,2,3}；当网络预测第i个字符时，i与j相等，此时的掩码矩阵M_mask在(i,j)处为负无穷大，与K、Q计算得到的权重相加后经过softmax函数，计算出的权重系数为0，即忽略该字符本身信息，预测结果完全由其它字符的信息得到，这样避免了该字符信息对预测结果的干扰，提升网络的预测能力；依次预测每个位置的字符，即可得到具有语义信息的字符特征F_s。

请见图5，本实施例的双特征融合单元DFFU，用于融合视觉特征F_v和语义特征F_s，对视觉特征F_v、语义特征F_s分别经过全连接层Linear后进行拼接操作，通过Sigmod函数计算各特征的贡献比重，融合视觉特征和语义特征，输出融合后的特征F_f。

融合后的特征F_f为：

F_f＝W_vF_v*α+W_sF_s*(1-α) (12)

α＝σ([W_vF_v,W_sF_s]) (13)

其中，W_v、W_s是网络需要学习的矩阵，α是计算得到的权重系数，[·,·]表示拼接操作。

本发明是一种无需校正或分割的方法，通过搭建多级Efficient SwinTransformer网络提取丰富的全局特征，后经注意力机制得到视觉特征；其次通过语义推理模块考虑字符上下文信息，对文本序列进行建模得到语义特征；最后使用双特征融合单元融合不同模态的视觉、语义特征，并分类得到最终的文本识别结果，有效地避免了分割字符的缺陷，同时考虑到了字符与字符之间的内在联系。

通过实验发现本发明对规则文本数据集IC13、SVT、IIIT5K的平均识别准确率为93.5％；对不规则文本数据集IC15、SVTP、CUTE的平均识别准确率为83.8％。IC13、SVT、IIIT5K的识别准确率分别为95.2％、91.3％、93.9％；对不规则文本数据集IC15、SVTP、CUTE的识别准确率分别为80.3％、85,4％、85.8％。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制的自然场景图像中文本识别方法，其特征在于：采用自然场景文本识别网络，对自然场景图像中文本进行识别；

所述视觉特征F_v，经过全连接层Linear和归一化操作层softmax求得字符的概率特征F_p，根据字符预测顺序设置字符掩码矩阵M_mask，将F_p和M_mask输入所述语义推理模块SemanticReasoning Block；所述语义推理模块Semantic Reasoning Block，包括掩码多头自注意力模块Masked Multi-Head Attention、标准化层Normalize、前馈连接层FeedForward、标准化层Normalize、全连接层Linear及归一化操作层softmax，得到语义特征F_s；所述概率特征F_p和掩码矩阵M_mask经过所述掩码多头自注意力模块Masked Multi-Head Attention得到特征F_m，依次经过标准化层Normalize、前馈连接层Feed Forward、标准化层Normalize、全连接层Linear及归一化操作层softmax，并且概率特征F_p以残差方式连接到所述的标准化层Normalize，在所述前馈连接层Feed Forward前以残差方式连接到下一个标准化层Normalize；

2.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法，其特征在于：若干所述高效通道注意力ECA模块和所述SwinTransformerBlock层级联连接，对于输入特征数据X从第i级到第i+1级计算公式如下：

式中i表示层号，

Xⁱ分别表示第i层W-MSA、MLP输出的特征，/>

Xⁱ⁺¹则分别表示第i+1层SW-MSA、MLP输出的特征。

3.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法，其特征在于：所述DUnet网络，输入特征依次经过三个下采样和三个上采，每个下采样后以残差的方式经过1×1卷积层1×1Conv后连接到对应的上采样层Up-sampling，所述下采样由空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成，上采样由上采样层Up-sampling、空洞卷积层DConv、批归一化及Relu激活层BN+Relu级联组成。

4.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法，其特征在于：所述V、Q、K三个分支输出分别为：

V(F)＝FW_v (5)

Q＝PW_p (6)

K(F)＝DUnet(DConv(F)+F) (7)

5.根据权利要求1所述的基于注意力机制的自然场景图像中文本识别方法，其特征在于：所述语义推理模块Semantic Reasoning Block的掩码多头自注意力模块MaskedMulti-Head Attention输出F_m；

其中：

F_p＝softmax(F_vW₁) (9)

其中，d为多头自注意力的维度，W_i为训练得到的变换矩阵，i＝{1,2,3}；当网络预测第i个字符时，i与j相等，此时的掩码矩阵M_mask在(i,j)处为负无穷大，与K、Q计算得到的权重相加后经过softmax函数，计算出的权重系数为0，即忽略该字符本身信息，预测结果完全由其它字符的信息得到；依次预测每个位置的字符，即可得到具有语义信息的字符特征F_s。

6.根据权利要求1-5任意一项所述的基于注意力机制的自然场景图像中文本识别方法，其特征在于，所述融合后的特征F_f为：

F_f＝W_vF_v*α+W_sF_s*(1-α) (12)

α＝σ([W_vF_v,W_sF_s]) (13)

其中，W_v、W_s是网络需要学习的矩阵，α是计算得到的权重系数，[·,·]表示拼接操作，σ为sigmoid函数。

7.一种基于注意力机制的自然场景图像中文本识别系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于注意力机制的自然场景图像中文本识别方法。