CN112149644A

CN112149644A - 基于全局特征指导的二维注意力机制文本识别方法

Info

Publication number: CN112149644A
Application number: CN202011239148.2A
Authority: CN
Inventors: 王鹏; 杨路
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2020-12-29

Abstract

本发明涉及一种基于全局特征指导的二维注意力机制的文本识别方法，属于图像识别中的文本识别领域。首先使用一个卷积神经网络对输入图片提取特征图，将这个特征图经过两路分支进行处理，一路使用1x1的卷积对特征图进行维度变换，另一路使用一个小的网络从特征图中提取出全局的特征表示。这两路提取出来特征都用作后续解码器的输入。在解码时先输入开始符号，然后将开始符号的特征加上位置编码的特征，然后再和全局特征拼接在一起。解码器根据这个拼接特征，通过二维注意力机制在特征图上去寻找需要识别的第一个文字并识别出答案。有了第一个文字，再把第一个文字和全局特征拼接在一起，去识别第二个文字。一直到解码器识别出文字结束符时停止识别。

Description

基于全局特征指导的二维注意力机制文本识别方法

技术领域

本发明属图像识别中的文本识别领域，具体为通过直接在卷积神经网络提取的特征上，使用全局特征指导的二维注意力机制对每个字符进行提取特征并进行识别的文本识别方法及系统。

背景技术

文本识别是图像处理中非常重要的一个技术。常见的有两种应用场景，一种是对扫描文档进行图像处理，一种是对自然场景图片中的文字进行识别。对于扫描文档图像而言，文字信息图像中最重要的信息，这些信息如果以图像的格式进行存储是非常浪费存储空间的，如果能够通过文本识别方法将文档图像中的问题识别出来，以文本的形式存储起来，那么将非常的有意义，而且识别出来的文本还能够方便后续的算法进行更进一步的分析处理。自然场景的图片中经常会有文字的出现，而一旦图像中有文字时，文字往往能够提供丰富的信息。比如一个店的招牌上的文字，如果读懂招牌上的文字大概就能猜出这家店是干什么的；一个瓶子上面的文字，一看文字就大概知道这瓶子里装的是什么东西。因此，图像识别中的文本识别是非常重要的一种技术，如何又快又准的进行图像文本识别是学术界和工业界都非常关注的。

早期的文本识别采用的是自下而上的方式，它首先检测单个字符并通过动态规划将其整合成一个单词，或者采用自顶向下的方式，它将单词作为一个整体来识别。考虑到文本通常以字符序列的形式出现，也有些方法将其建模为序列识别问题。RNN通常被用来进行序列特征学习。文本识别的方法大多是由上述框架驱动的，但在处理不规则文本的变形或曲率时，还需要做一些改进。有方法通过空间变换网络将不规则文本图像纠正为规则文本图像，然后用一维的注意力顺序模型识别他们。也有通过一个校正网络迭代地消除透视畸变和文本曲线，从而得到文本识别的前向平行视图。

现有方法利用RNN从四个方向捕捉不规则文本图像的深层特征，然后通过一维基于注意力的解码器组合生成字符序列。并设计一个滤波门，将冗余特征融合，去除不相关特征。最新的方法中有人认为用一维序列来表示不规则文本图像是不合适的，并提出了一种字符注意全卷积网络，在二维视角下准确地检测每个字符。然后用一种单独的基于切分的方法来实现，但是此模型不能进行端到端的训练。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于全局特征指导的二维注意力机制的文本识别方法。

技术方案

一种基于全局特征指导的二维注意力机制文本识别方法，其特征在于步骤如下：

步骤1：将输入图片尺寸调整到48×160×3大小；

步骤2：将调整后的图片输入到定制版的ResNet34网络，去掉ResNet34网络最后的两层即平均池化层和全连接层，得到网络输出的原始特征图，原始特征图大小为6×20×512；所述的定制版的ResNet34是针对文字识别任务特殊改造的：将第一层卷积从7x7的卷积核修改为3x3的卷积核，将所有的2x2的最大池化层都修改为2x1的最大池化层；

步骤3：对步骤2得到的原始特征图进行1x1卷积，进行通道的改变，特征图大小变为6×20×1024；此特征图代表了整张图片的文字内容信息，所有的文字的信息分布在这个特征图的不同位置；

步骤4：将原始特征图通过6层的Bottleneck、全局池化以及一个全连接层，提取一个全局特征，其尺寸为1×1×512；此全局特征代表整张图片，它把所有文字的特征都融合在了一起；

步骤5：解码器的解码过程是串行的，也就是说是一个字一个字来进行识别的。在识别第一个文字时，首先将开始字符进行编码成1×512的特征，然后将其和位置0的位置编码特征1×512相加，形成一个带有位置信息的字符特征；然后再和步骤4得到的全局特征进行拼接，得到第一个1×1024大小的查询特征；

步骤6：通过步骤5得到的查询特征，在步骤3得到的特征图上进行比对查找第一个需要识别的文字；解码器通过计算查询特征和特征图中每一个特征的相关性，得到一个相关性的系数图，使用该相关性系数图对特征图进行求加权和，得到一个的特征；将此特征送入一个两层的前馈网络进行特征的进一步变换，最终经过分类层进行分类；分类成功后，对应位置的文字便是第一个识别的文字；

步骤7：之后每个需要识别的文字，都是通过前一个文字以及其位置编码信息进行结合，一起送进解码器作为新的查询特征；然后通过与步骤6类似的步骤，逐个解码出每一个文字，直到识别出来的文字是结束符则停止解码。

步骤1使用双线性插值的方法调整图像尺寸。

有益效果

本发明提出的一种基于全局特征指导的二维注意力机制文本识别方法，通过二维注意力机制可以在识别每一个文字时，不需要对图片进行校正就可以使解码器关注特征图的不同位置，从而准确的提取所需要的文字特征。另外通过使用全局特征指导，可以使得解码器只关注和文字内容相关的区域，提高定位准确度。本发明的特点如下：

1.基于二维注意力机制的文本识别方法，并且可以端到端的进行训练。

2.在训练时，本发明的方法可以做到所有文字全并行训练，而不是一个一个的参与训练。

3.使用了一个全局特征来指导解码器进行文字识别，从而达到更高的精度。

4.使用了一个定制版的卷积神经网络，速度更快准确率更高。

5.本发明的方法在训练时，不需要字符级别的标注，只需要单词级别的标注即可。

附图说明

图1本发明方法结构图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本方法的基础是一个传统的编码器-解码器构架的深度学习神经网络，但不同于普通的神经网络的是本发明使用了基于全局特征指导的二维注意力机制的方法，本发明不需要文本矫正就可以直接通过二维注意力机制直接去定位每一个需要识别的文字。对于需要识别的图片，首先使用一个卷积神经网络对输入图片提取特征图，这个特征图是含有丰富的二维信息的。对于这个特征图，本发明经过了两路分支进行处理，一路使用1x1的卷积对特征图进行维度变换，以供后续的解码器进行处理，另一路使用一个小的网络从特征图中提取出全局的特征表示。这两路提取出来特征都用作后续解码器的输入。解码器是一个使用全局特征指导的基于Transformer Decoder的解码器。在解码时先输入开始符号，然后将开始符号的特征加上位置编码的特征，然后再和全局特征拼接在一起。解码器根据这个拼接特征，通过二维注意力机制在特征图上去寻找需要识别的第一个文字并识别出答案。有了第一个文字，再把第一个文字和全局特征拼接在一起，去识别第二个文字(过程和识别第一个文字类似)。一直到解码器识别出文字结束符时停止识别。

该检索方法有以下主要步骤：

(1)对需要识别的图片进行缩放，不论之前的尺寸如何统一缩放到H×W分辨率。

(2)使用卷积神经网络ConvNet对图片Image进行处理，得到原始的特征图orifeature_map：

orifeature_map＝ConvNet(Image) (1)

(3)对于原始的特征图，使用1x1卷积提取解码器需要的特征图：

feature_map＝Conv1×1(orifeature_map) (2)

(4)对于原始的特征图，使用一个小的网络Net提取全局特征global_feature。

global_feature＝Net(orifeature_map) (3)

(5)将开始字符START编码后加上位置编码PE(0)，再和全局特征拼global_feature接到一起组成解码器的输入之一：

[embedding(START)+PE(0)，global_feature] (4)

(6)解码器根据步骤(5)得到的特征的指导，基于注意力机制在feature_map上进行比较，定位出需要识别的第一个文字，并进行识别。

(7)将识别出来的第一个文字char1编码后，加上位置编码PE(1)，再和全局特征拼global_feature接到一起。重复(5)(6)的步骤一个一个的识别文字。

(8)直到识别出结束字符，则停止识别。

如图1所示，本发明提供了一种基于全局特征指导的二维注意力机制文本识别方法，具体过程如下：

1、训练方法参数细节

在训练时使用数据增强。数据增强时采用随机调整亮度、对比度，随机灰度化，随机噪声，随机剪裁等常用数据增强方法。本发明使用ADADELTA优化器训练模型，批量大小为160。在全部训练集上训练了4个周期。训练的loss使用传统的分类用的交叉熵，类别为大小写英文字母，数字，特殊字符和常见汉字等，其中特殊字符包含开始字符和结束字符。在训练时可以将图片输入编码器的同时，也把所有文字也同时送入解码器进行训练。本发明的方法在训练时可以所有文字并行的训练。在推理阶段需要一个文字一个文字的进行文字识别。

2、原始特征图的获得

把图片尺寸使用双线性插值的方法调整到48×160大小。把调整后的图片输入到定制版的ResNet34网络，去掉ResNet34网络最后的两层即平均池化层和全连接层，得到网络输出的原始特征图，原始特征图大小为6×20×512。其中定制版的ResNet34是针对文字识别任务特殊改造的：将第一层卷积从7x7的卷积核修改为3x3的卷积核，将所有的2x2的最大池化层都修改为2x1的最大池化层。

3、提取特征图

为了适应不同的主干网络，本发明对步骤2得到的原始特征图进行1x1卷积，进行通道的改变，特征图大小变为6×20×1024。此特征图代表了整张图片的文字内容信息，所有的文字的信息分布在这个特征图的不同位置。需要后续解码器根据不同的查询特征来进行一个文字一个文字的识别。

4、提取全局特征

本发明通过6层的Bottleneck，全局池化以及一个全连接层，从步骤2的原始特征图上提取一个全局特征，其尺寸为1×1×512。此全局特征代表整张图片，它把所有文字的特征都融合在了一起。在解码过程中，全局特征可以指导解码器去关注特征图中的文字区域而忽略掉背景等无用信息，有助于提高文字识别的准确性。

5、解码器的查询特征

解码器的解码过程是串行的，也就是说是一个字一个字来进行识别的。在识别第一个文字时，首先将开始字符进行编码成1×512的特征，然后将其和位置0的位置编码特征1×512相加，形成一个带有位置信息的字符特征。然后再和步骤4得到的全局特征进行拼接，得到第一个1×1024大小的查询特征。

6、第一个文字的识别

本发明使用Transformer作为解码器进行文字识别。在识别第一个文字时，通过读入步骤5得到的查询特征，在步骤3得到的特征图上进行比对查找第一个需要识别的文字。解码器通过计算查询特征和特征图中每一个特征的相关性，得到一个相关性的系数图。本发明使用该相关性系数图对特征图进行求加权和，这样就可以得到一个1×1024的特征。本发明将此特征送入一个两层的前馈网络进行特征的进一步变换，最终经过分类层进行分类。分类成功后，对应位置的文字便是识别的结果。

7、其他文字的识别

在识别其他文字(非第一个文字)时，因为前面已经有识别出来的文字了，本发明将前面已经识别出来的文字特征加上各自对应的位置编码特征，统一送进解码器作为新的查询特征。此时解码器首先会对这些特征进行自注意力机制计算，相当于对已经解码出来的每个文字分配一个权重系数，然后对这些已经解码出来的文字特征进行加权和，然后得到新的查询特征。然后解码器会根据当前的查询特征在步骤3得到的特征图上进行对比查找，然后使用类似步骤6的过程识别当前文字。

8、文字识别结束

当解码器在识别文字时，如果识别出来的文字是结束符时，表明解码器认为图片中所有的文字已经都识别完成了，则识别结束。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均在本发明的保护范围之内。

Claims

1.一种基于全局特征指导的二维注意力机制文本识别方法，其特征在于步骤如下：

步骤1：将输入图片尺寸调整到48×160×3大小；

2.根据权利要求1所述的一种基于全局特征指导的二维注意力机制文本识别方法，其特征在于步骤1使用双线性插值的方法调整图像尺寸。