CN111950453B

CN111950453B - 一种基于选择性注意力机制的任意形状文本识别方法

Info

Publication number: CN111950453B
Application number: CN202010807024.3A
Authority: CN
Inventors: 王勇; 朱军民; 曹羽
Original assignee: Beijing Yidao Boshi Technology Co ltd
Current assignee: Beijing Yidao Boshi Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2024-02-13
Anticipated expiration: 2040-08-12
Also published as: CN111950453A

Abstract

本发明公开了一种基于选择性注意力机制的任意形状文本识别方法，属于计算机视觉领域。该方法包括：输入原始文本图像，对原始文本图像进行预处理，得到原始文本图像的样本集；通过融入通道Attention模块的Backbone CNN对预处理后的原始图像的特征进行编码并输出基本特征编码特征图；针对基本特征编码特征图分别进行文本图像特征编码和文本区域Mask特征编码，并进行双向特征加权融合；通过选择性注意力机制解码融合特征图；输出识别的文本信息。本发明技术方案创新性地提出选择性注意力机制，将文本图像特征的提取和序列化转录的任务集成在一个神经网络之中，大大提升了任意形状文字识别的精度。

Description

一种基于选择性注意力机制的任意形状文本识别方法

技术领域

本发明涉及计算机视觉领域，尤其是一种基于深度学习和选择性注意力机制的任意形状文本识别方法。

背景技术

当前，文字识别方法可以划分为两类，一类是基于传统技术的方法，另一类则是基于深度学习的方法。传统的方法通常采用一种自底向上的处理策略，首先识别出单个字符信息，然后将多个字符组合成文本行。近些年，深度学习技术有了快速的发展，并成功地应用到文字识别任务。这一类方法一般在一个统一的框架中完成图像特征提取和序列化转录的工作，通常依赖于端到端可训练的深度神经网络和大规模的样本集。相比于传统的方法，深度学习方法能够取得更好的识别性能。

主流深度学习文字识别算法通常基于Encoder-Decoder的架构，并结合CTC(Connectionist Temporal Classification)或者注意力(Attention)机制完成序列化转录的工作。由于受限于单一方向的特征切片形式，基于CTC的方法通常无法很好的识别多方向或者任意形状的文字。Attention机制很早就被应用到深度学习领域，如计算机视觉中基于递归注意力机制的增强学习，以及Seq2Seq模型中用于解决背景或上下文对齐的问题。本质上，Attention机制允许模型自动的软搜索与预测目标最相关的特征部分，以此作为解码器当前时刻输入的一部分，从而大幅度提升预测精度。这样的模型天然具备学习视觉特征和词向量之间对齐关系的能力，这也正是OCR任务中序列化转录需要完成的任务。由于Attention机制对于特征切片的方向没有限制，原则上能够识别任意形状的文字。

尽管Attention的方法很大程度上提升了文字识别精度，甚至对于比较难的任意形状文字也有不错的识别性能，但是不得不承认，特定类型的文字识别仍然具有很大的挑战性,如文档图片中的经常出现的印章文字，以及自然场景中任意形状的场景文字等。这一方面由于图片本身的原因造成，如图像分辨率低、模糊、或不均匀光照等，另一方面则来自于文字本身的多样性，如不同的大小、字体、颜色、方向、变换视角以及复杂背景等。如下图是一些典型的具有挑战性的文字样本。另外，尽管Attention机制有强大的对齐输入特征和目标对象的能力，但是由于模型训练时缺乏显示的制约条件，即类似于一种弱监督的学习方式，通常会面临Attention Drift(注意力漂移)的问题，即预测目标与相关联的注意力区域之间出现偏差的现象。

发明内容

本发明涉及一种基于深度学习和选择性注意力机制的任意形状文本识别方法。通过有选择性的二维空间软注意力机制，以自动软搜索的方式获取目标字符相关的特征信息，完成视觉特征与目标字符词向量之间的对齐，较好地解决了Attention模型中普遍存在的注意力漂移(Attention Drift)问题，从而在具有挑战性的任意形状文字识别任务上取得不错的效果。

根据本发明的第一方面，提供一种基于选择性注意力机制的任意形状文本识别方法，所述方法包括：

步骤1：输入原始文本图像，对原始文本图像进行预处理，得到原始文本图像的样本集；

步骤2：通过融入通道注意力机制(Attention)模块的残差骨干卷积神经网络(Backbone CNN)对预处理后的原始图像的基本特征进行编码并输出编码特征图，得到基本图像特征图；

步骤3：针对基本图像特征图分别进行文本图像特征编码和文本区域掩膜(Mask)特征编码，并进行双向特征加权融合，得到融合特征图；

步骤4：通过选择性注意力机制和长短期记忆(LSTM)解码模块，解码融合特征图；

步骤5：输出识别的文本信息。

进一步的，步骤1中，所述对原始图像进行预处理包括但不限于：对原始图像进行长宽比不变的尺寸归一化、边界补0以及数据增强。

进一步的，所述步骤2具体包括：

步骤21：加载残差Backbone CNN预训练模型；

步骤22：将通道Attention模块嵌入到残差Backbone CNN预训练模型的每一个卷积块(Block)中；

步骤23：调整方形的卷积核为特殊的不规则形状；

步骤24：通过样本集对嵌入通道Attention模块的残差Backbone CNN预训练模型进行训练、验证和测试，并根据测试精度表现调整整体网络的深度和宽度，以达到最高的精度；

步骤25：输出基本图像特征图。

进一步的，步骤21中，所述残差Backbone CNN预训练模型为已在大规模的分类图片样本集上训练获得的残差Backbone CNN预训练模型。

进一步的，步骤23中，调整方形的卷积核为特殊的不规则形状包括：将N*N的卷积核调整为N*M的卷积核，其中，N和M为正整数。

进一步的，步骤24中，整体网络的的深度指网络的层数，如34，50，152等，宽度指每一个卷积层的卷积核数量，即对应特征图的通道数量，如256，512，1024等。

进一步的，所述步骤3具体包括：

步骤31：将基本图像特征图分别输入文本图像全卷积神经网络和文本区域Mask全卷积神经网络进行特征编码；

步骤32：分别输出文本图像编码特征图和文本区域Mask编码特征图；

步骤33：将同一融合节点的所有权重值通过归一化指数(softmax)函数进行归一化，转换到0-1之间的值，对文本图像编码特征图和文本区域Mask编码特征图进行加权求和，得到融合特征图。

进一步的，所述文本图像全卷积神经网络在序列损失(Sequence Loss)的监督下进行文本图像特征学习；

文本区域Mask全卷积神经网络在掩膜标签(Mask Label)的监督下，通过掩膜损失(Mask Loss)监督学习文本区域Mask的表示，基于Sequence Loss计算的参数梯度会间接地传播到Mask分支，进行监督学习。

进一步的，所述步骤4具体包括：

步骤41：计算上一时刻LSTM网络隐藏层状态与融合特征图不同位置的特征向量之间的相关度；

步骤42：完成相关度之间的对齐，得到归一化的二维注意力机制权重(AttentionWeights)；

步骤43：利用二维Attention Weights对融合特征图进行加权求和，得到最终的背景向量(Context vector)；

步骤44：背景向量(Context vector)与上一时刻的隐藏层状态以及上一时刻预测字符的词向量一起，经过空间变换后作为LSTM解码器的输入，以完成对当前时刻目标字符的预测。

根据本发明的第二方面，提供一种基于选择性注意力机制的任意形状文本识别系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行如以上任一方面所述的一种基于选择性注意力机制的任意形状文本识别方法。

根据本发明的第三方面，提供一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一方面所述的一种基于选择性注意力机制的任意形状文本识别方法。

本发明的有益效果：

1、多目标监督学习文本特征和区域Mask特征，实现更强大的特征编码器；

2、自动学习特征通道加权权重，完成特征融合，得到更具表示能力的文本图像特征图；

3、选择性二维空间注意力机制，可以有效利用空间背景特征，避免了常见的Attention Drift问题；

4、可以适用于水平、多方向以及任意形状的文字识别；

5、将图像特征提取和序列化转录的工作集成到一个深度网络中，高效地解决了文字识别的任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1示出现有技术中常见的任意形状文本。

图2示出根据本发明实施例的算法整体流程图。

图3示出根据本发明实施例的包含了监督学习Loss的算法结构图。

图4示出根据本发明实施例的通道Attention结构示意图。

图5示出根据本发明实施例的双向特征加权融合结构图。

图6示出根据本发明实施例的Attention Decoder结构图。

图7示出根据本发明实施例的2-D Selective Attention结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本发明涉及一种精确的任意形状文字识别方法。针对任意形状场景文字识别这一难题，本发明技术方案创新性地提出选择性注意力机制，将文本图像特征的提取和序列化转录的任务集成在一个神经网络之中，大大提升了任意形状文字识别的精度。

实施例

如图2-3所示，根据本发明的任意形状文字识别方法具体包括：

第一步：图像预处理

该步骤对输入的图像进行一系列预处理操作，其中最重要的是对图像做长宽比不变的尺寸归一化以及边界补0，使得图像的尺寸能够支持神经网络要求的卷积和下采样等操作，并最大化的保留全局和局部特征信息。

训练时，图像预处理阶段还需要完成必要的数据增强，如图像仿射变换(rotation,shear,scale,等)、颜色扭曲等，使得训练样本的分布更接近于潜在的真实样本生成分布，以缓解可能的数据稀缺性问题，从而提升学习模型的鲁棒性和不变性。预测阶段，则只做图像尺寸的归一化处理。

第二步：Backbone CNN特征编码器

该步骤通过深度卷积神经网络对图像的基本特征进行编码。深度神经网络具有强大的拟合能力，本质上得益于其可以在不同的函数空间中搜索合适的函数形式以及最佳的与之匹配的权重参数，以针对训练目标，在训练集上拟合出最佳的参数化模型，并很好地泛化到测试集上。

本发明针对文本图像的特殊性，在常用的基于残差连接的Backbone CNN的基础上融入通道Attention结构，并针对任意形状文本图片的特点，调整网络的深度、宽度和卷积核的样式，从而更好地提取文本图像中的基础特征，为后续更高级、抽象的特征提取和融合做准备。

1.网络结构、深度与宽度

图4为通道Attention模块的结构图，该结构会嵌入到残差Backbone CNN的每一个Block中。其中Xi、Xo为输入输出特征图，C为该特征图的通道数量，R是一个可调节的超级参数，典型值为16。

为了更好的发挥Backbone CNN在任意形状文字图片样本上的特征提取能力，实际训练中根据测试集上的精度表现来调整整体网络的深度和宽度，以达到最高的精度。这里的深度指网络的层数，如34，50，152等，宽度则指每一个卷积层的卷积核数量，即对应特征图的通道数量，如256，512，1024等。

2.卷积核样式

文本属于特殊的对象，其具有独特的几何特征，如整体尺寸较小且宽长比比较大。基于此，我们调整方形的卷积核(如3x3,5x5)为特殊的不规则形状，如1x3,3x1,1x5,5x1等，以此来提升卷积核学习文本对象特征的能力，从而提升整体Backbone CNN的特征表示能力。

利用Backbone CNN提取图像特征的步骤：

1.第一步加载Backbone CNN预训练模型

该步骤按照迁移学习的思路，加载公开的残差Backbone CNN预训练模型。这些预训练模型通常在大规模的分类图片样本集上训练获得，具有比较强的图像特征提取能力。通过这一步，使我们的Backbone网络具备基本的特征学习能力。

2.在文本图片训练集上对Backbone CNN网络做第二阶段训练

在任意形状文本图片样本集上训练该Backbone网络，以优化学习针对文本图片特征而特殊设计的网络权重部分，即包括上一部分提到的新增的网络结构以及优化后的网络深度和宽度中涉及的参数部分。

第三步：文本图像和文本区域Mask特征提取与融合

该步骤可分为文本特征提取和特征融合两个小步。

第一小步以Backbone CNN网络输出为输入，通过两个特殊设计的全卷积神经网络(FCN)分支，完成文本图像特征和文本区域Mask特征的编码。两个分支并行执行，但是在不同的目标下进行监督训练，侧重于学习提取不同模式的特征信息。Mask分支在Mask Label的监督下，通过Mask Loss监督学习文本区域Mask的表示。文本特征提取分支则在最终Sequence Loss的监督下进行特征学习。另外基于Sequence Loss计算的参数梯度也会间接地传播到Mask分支，进行监督学习。

第二小步对第一小步两个特征提取分支的输出特征图进行融合。该步骤通过创新设计的双向特征加权融合的方式对各个通道的特征信息进行结合，以获取具有更强大表示能力的特征图。其中各个特征图通道的权重参数亦作为整体网络权重的的一部分进行自动优化学习。该步骤特征融合的结果将作为Attention解码器的输入。本质上，这种融合方式也可以理解为一种特征通道Attention机制。具体结构如图5所示。其中，P2-P5为不同尺寸的特征图，ω是通过网络优化学习到的权重值，不同融合节点的输入特征具有不同的权重值。同一融合节点的所有权重值首先通过Softmax函数进行归一化，即转换到0-1之间的值，然后再对所有特征图进行加权求和，以得到融合后的特征图。

第四步：Attention解码器序列化转录。

该步骤以融合后的特征图为输入，借助于Attention机制和LSTM解码模块，完成序列化转录的工作。其中，Attention解码器采用选择性二维空间Attention机制，充分地利用空间上下文特征信息，以选择性地高效学习与目标字符相关的视觉特征，即contextvector(背景上下文向量)。该向量与上一时刻的隐藏层状态以及上一时刻预测字符的词向量一起，经过必要的空间变换后作为LSTM解码器的输入，以完成对当前时刻目标字符的预测。

该Attention机制最大的特点在于直接基于二维Feature Map进行自动地选择性地特征学习。本质上讲，Attention过程包含三个步骤，第一步称为相关度度量，即计算上一时刻LSTM隐藏层状态与特征图不同位置的特征向量之间的相关度；第二步完成相关度之间的对齐，即得到归一化的二维Attention Weights；第三步利用该Weights对特征图进行加权求和，得到最终的背景向量Context vector。由此可见，该Attention机制是通过学习二维Weights直接基于特征图获取最终的特征向量表示，从而有效地避免了通常的二维到一维特征变换带来的空间相关特征损失。

如图6是基于Attention和LSTM的解码器整体结构图，图7是2-D SelectiveAttention的内部结构图。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于选择性注意力机制的任意形状文本识别方法，其特征在于，所述方法包括：

步骤2：通过融入通道注意力机制模块的残差骨干卷积神经网络对预处理后的原始图像的特征进行编码并输出编码特征图，得到基本图像特征图；

步骤3：针对基本图像特征图分别进行文本图像特征编码和文本区域掩膜特征编码，并进行双向特征加权融合，得到融合特征图；

步骤4：通过选择性注意力机制和长短期记忆网络解码模块，解码融合特征图；

步骤5：输出识别的文本信息，

其中，所述步骤4具体包括：

步骤41：计算上一时刻长短期记忆网络隐藏层状态与融合特征图不同位置的特征向量之间的相关度；

步骤42：完成相关度之间的对齐，得到归一化的二维注意力机制权重；

步骤43：利用二维注意力机制权重对融合特征图进行加权求和，得到最终的背景向量；

步骤44：背景向量与上一时刻的隐藏层状态以及上一时刻预测字符的词向量一起，经过空间变换后作为长短期记忆网络解码器的输入，以完成对当前时刻目标字符的预测。

2.根据权利要求1所述的基于选择性注意力机制的任意形状文本识别方法，其特征在于，所述步骤2具体包括：

步骤21：加载残差骨干卷积神经网络预训练模型；

步骤22：将通道注意力机制模块嵌入到残差骨干卷积神经网络预训练模型的每一个卷积块中；

步骤23：调整方形的卷积核为特殊的不规则形状；

步骤24：通过样本集对嵌入通道注意力机制模块的残差骨干卷积神经网络预训练模型进行训练、验证和测试，并根据测试精度表现调整整体网络的深度和宽度，以达到最高的精度；

步骤25：输出基本图像特征图。

3.根据权利要求2所述的基于选择性注意力机制的任意形状文本识别方法，其特征在于，步骤21中，所述残差骨干卷积神经网络预训练模型为已在大规模的分类图片样本集上训练获得的残差骨干卷积神经网络预训练模型。

4.根据权利要求2所述的基于选择性注意力机制的任意形状文本识别方法，其特征在于，步骤23中，调整方形的卷积核为特殊的不规则形状包括：将N*N的卷积核调整为N*M的卷积核，其中，N和M为正整数。

5.根据权利要求2所述的基于选择性注意力机制的任意形状文本识别方法，其特征在于，步骤24中，整体网络的的深度指网络的层数，宽度指每一个卷积层的卷积核数量。

6.根据权利要求1所述的基于选择性注意力机制的任意形状文本识别方法，其特征在于，所述步骤3具体包括：

步骤31：将基础特征编码特征图分别输入文本图像全卷积神经网络和文本区域掩膜全卷积神经网络进行特征编码；

步骤32：分别输出文本图像编码特征图和文本区域掩膜编码特征图；

步骤33：将同一融合节点的所有权重值通过归一化指数函数进行归一化，转换到0-1之间的值，对文本图像编码特征图和文本区域掩膜编码特征图进行加权求和，得到融合特征图。

7.根据权利要求6所述的基于选择性注意力机制的任意形状文本识别方法，其特征在于，所述文本图像全卷积神经网络在序列损失的监督下进行文本图像特征学习；

文本区域掩膜全卷积神经网络在掩膜标签的监督下，通过掩膜损失监督学习文本区域掩膜的表示，基于序列损失计算的参数梯度会间接地传播到掩膜分支，进行监督学习。

8.一种端到端的图章识别系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行如权利要求1至7中任一项所述的一种基于选择性注意力机制的任意形状文本识别方法。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种基于选择性注意力机制的任意形状文本识别方法。