CN111899292A

CN111899292A - 文字识别方法、装置、电子设备及存储介质

Info

Publication number: CN111899292A
Application number: CN202010541723.8A
Authority: CN
Inventors: 宋祺; 姜仟艺; 张睿
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-11-06

Abstract

本申请公开了文字识别方法、装置、电子设备及存储介质，该方法包括：提取目标图像的纹理特征；基于第一类注意力机制对纹理特征进行过滤，得到注意力增强特征，其中，第一类注意力机制包括空间注意力机制和/或通道注意力机制；基于第二类注意力机制和注意力增强特征得到文字识别结果，其中，第二类注意力机制包括互注意力机制。本申请的有益效果在于：将多种注意力机制有机结合应用于文字识别，能够快速识别字符特征，而不受文字排版的影响，显著提升文字识别的准确率，尤其对于不规则文字的识别，效果显著，且计算量小、计算速度快、可用性强、适用范围广。

Description

文字识别方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种文字识别方法、装置、电子设备及存储介质。

背景技术

文字识别作为计算机视觉中的一种常用技术，被广泛应用于文档分析、证照识别、街景识别、资质审核、自动录入等场景中，为人们的日常生活和工作提供了很大的便利。但是现有技术依然存在着很多不足之处，如现有文字识别的方法对比较标准的水平或垂直文字行能够有效识别，但是，针对不规则排列的文字，识别效果普遍不好，识别正确率较低，仅能识别其中部分弯曲、倾斜的文字行，而在中文文字图像中，不规则的排列比其他一些字母文字(例如英文、法文等)更加显著，针对这种不规则的文字，现有技术还缺乏有效的解决方案。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文字识别方法、装置、电子设备及存储介质。

依据本申请的一个方面，提供了一种文字识别方法，该方法包括：

提取目标图像的纹理特征；

基于第一类注意力机制对纹理特征进行过滤，得到注意力增强特征，其中，第一类注意力机制包括空间注意力机制和/或通道注意力机制；

基于第二类注意力机制和注意力增强特征得到文字识别结果，其中，第二类注意力机制包括互注意力机制。

可选的，在上述方法中，基于第一类注意力机制对纹理特征进行过滤，得到注意力增强特征包括：

基于第一类注意力机制生成纹理特征的信息矫正掩模；

将生成的各信息矫正掩模分别与纹理特征进行融合，得到相应的注意力增强特征。

可选的，在上述方法中，第一类注意力机制还包括全局注意力机制和/或局部注意力机制。

可选的，在上述方法中，基于第二类注意力机制和注意力增强特征得到文字识别结果包括：

将基于全局注意力机制得到的注意力增强特征作为互注意力机制的V输入和K输入，将基于局部注意力机制得到的注意力增强特征作为互注意力机制的Q输入。

可选的，在上述方法中，第二类注意力机制还包括自注意力机制，基于第二类注意力机制和注意力增强特征得到文字识别结果包括：

利用自注意力机制确定文字预测结果；

基于互注意力机制、注意力增强特征和文字预测结果得到文字识别结果。

可选的，在上述方法中，自注意力机制通过文字识别模型中的自注意力模块实现；

在训练文字识别模型时，自注意力模块根据输入的训练图像的标注信息输出自注意力特征，以使文字识别模型根据自注意力特征和注意力增强特征的融合后的特征确定文字识别结果。

可选的，上述方法可应用于文字识别模型中，文字识别模型训练时使用的训练图像经过如下的至少一项预处理：旋转、形变、色彩变换。

依据本申请的另一方面，提供了一种文字识别装置，该装置包括：

特征提取单元，用于提取目标图像的纹理特征；

注意力加强单元，用于基于第一类注意力机制对所述纹理特征进行过滤，得到注意力增强特征，其中，所述第一类注意力机制包括空间注意力机制和/或通道注意力机制；

识别单元，用于基于第二类注意力机制和所述注意力增强特征得到文字识别结果，其中，所述第二类注意力机制包括互注意力机制。

可选的，在上述装置中，注意力加强单元，用于基于第一类注意力机制生成纹理特征的信息矫正掩模；将生成的各信息矫正掩模分别与纹理特征进行融合，得到相应的注意力增强特征。

可选的，在上述装置中，第一类注意力机制还包括全局注意力机制和/或局部注意力机制。

可选的，在上述装置中，识别单元，用于将基于全局注意力机制得到的注意力增强特征作为互注意力机制的V输入和K输入，将基于局部注意力机制得到的注意力增强特征作为互注意力机制的Q输入。

可选的，在上述装置中，第二类注意力机制还包括自注意力机制，识别单元，还用于利用自注意力机制确定文字预测结果；基于互注意力机制、注意力增强特征和文字预测结果得到文字识别结果。

可选的，在上述装置中，自注意力机制通过文字识别模型中的自注意力模块实现；在训练文字识别模型时，自注意力模块根据输入的训练图像的标注信息输出自注意力特征，以使文字识别模型根据自注意力特征和注意力增强特征的融合后的特征确定文字识别结果。

可选的，上述装置可应用于文字识别模型中，文字识别模型训练时使用的训练图像经过如下的至少一项预处理：旋转、形变、色彩变换。

依据本申请的又一方面，提供了一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如上任一的方法。

依据本申请的再一方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现如上任一的方法。

由上述可知，本申请的技术方案，通过提取目标图像的纹理特征；基于第一类注意力机制对纹理特征进行过滤，得到注意力增强特征，其中，第一类注意力机制包括空间注意力机制和/或通道注意力机制；基于第二类注意力机制和注意力增强特征得到文字识别结果，其中，第二类注意力机制包括互注意力机制。本申请的有益效果在于：将多种注意力机制有机结合应用于文字识别，能够快速识别字符特征，而不受文字排版的影响，显著提升文字识别的准确率，尤其对于不规则文字的识别，效果显著，且计算量小、计算速度快、可用性强、适用范围广。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的文字识别方法的流程示意图；

图2示出了根据本申请另一个实施例的文字识别方法的流程示意图；

图3示出了根据本申请一个实施例的文字识别装置的结构示意图；

图4示出了根据本申请一个实施例的电子设备的结构示意图；

图5示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请的构思在于，将多种注意力机制结合起来，用于文字识别技术中，加强了文字的注意力特征，能够显著提升文字识别准确率，尤其是针对中文的不规则排版或书写的文字，效果显著。

图1示出了根据本申请一个实施例的文字识别方法的流程示意图，该方法包括：

步骤S110，提取目标图像的纹理特征。

计算机文字识别，也称光学字符识别(Optical Character Recognition，OCR)，它是利用光学技术和计算机技术把图像中的、或印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式，计算机文字识别技术也是实现文字高速录入的一项关键技术。

其中，待识别的文字的语种可以但不限于：中文、英文、日文、韩文、蒙文等；待识别的文字可以为印刷体，也可以为手写体，印刷体可为但不限于宋体、楷体、黑体等，手写体可为但不限于联机手写和脱机手写；如果待识别的文字印在或写在纸上，可以采用拍照、扫描等方式获取目标图像。

由于目标图像在获取的过程中，由于光照、遮挡、污渍、会造成文字畸变，产生断笔、粘连和污点等干扰，所以在对目标图像中的特征编码前，可以对带有噪声的目标图像进行处理，也称预处理。本申请对于预处理的方法并不做限定，可采用现有技术中的一种或几种，包括但不限于：灰度化、二值化，倾斜检测与校正，行、字切分，平滑，规范化等等。

纹理是一种反映图像中同质现象的视觉特征，它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性，即纹理特征体现全局特征的性质的同时，它也描述了图像或图像区域所对应景物的表面性。纹理特征描述不需要局部微细特征分析，常用于文字识别技术。

纹理特征的提取方法本发明不做限制，可采用现有技术中的任意一种，包含但不限于：基于统计的方法，如灰度共生矩阵、灰度行程统计、灰度差分统计、局部灰度统计、半方差图、自相关函数等；基于模型的方法，如同步自回归模型、马尔可夫模型、吉布斯模型、滑动平均模型、复杂网络模型等；基于结构的方法，如句法纹理分析、数学形态学法、Laws纹理测量(Laws’Texture Measures Laws texture energy measure Algorithm)、特征滤波器等；以及基于信号处理的方法，如拉东变换(Radon transform)、离散余弦变换、局部傅里叶变化、Gabor变换(业内暂无中文名)、二进制小波变换、树形小波分解等。

以灰度共生矩阵方法为例，其通过统计不同灰度值对的共现频率得到灰度共生矩阵，基于矩阵可计算出14种统计量：能量、熵、对比度、均匀性、相关性、方差、和平均、和方差、和熵、差方差、差平均、差熵、相关信息测度以及最大相关系数。灰度梯度共生矩阵将图梯度信息加入到灰度共生矩阵中，综合利用图像的灰度与梯度信息，效果更好。图像的梯度信息一般通过梯度算子(也称边缘检测算子)提取，如索贝尔算子(sobel)、canny算子(业内暂无中文名)、reborts算子(业内暂无中文名)等。

关于特征提取过程所采用的神经网络不申请不作限制，可为任意一种经典神经网络结构，例如：VGGNet(业内暂无中文名)，ResNet(业内暂无中文名)或InceptionNet(业内暂无中文名)。

在本申请中，推荐卷积神经网络中池化层的宽度方向步长大于高度方向步长作为一种优选方案。通常池化层所使用的步长，在宽和高上相等，在本实施例中，为了使水平方向有更高的分辨率，在设置池化层参数时，可以将积神经网络中池化层的宽度方向步长设置为大于高度方向步长，如stride设置为[2,1]。

步骤S120，基于第一类注意力机制对纹理特征进行过滤，得到注意力增强特征，其中，第一类注意力机制包括空间注意力机制和/或通道注意力机制。

注意力，简单而言就是在众多信息中把注意力集中放在重要的点上，选出关键信息，而忽略其他不重要的信息。深度学习中的注意力机制(Attention Mechanism)正是如此，去学习不同局部的重要性，再结合起来。在本实施例中，采用注意力机制对从目标图像提取的纹理特征做进一步的过滤处理，就是要把权重主要分配在目标图像的文字上，过滤处理后，得到目标图像的注意力增强特征。将从目标图像提取的纹理特征经过注意力机制的过滤处理，能够起到强化文字前景信息，排除背景干扰的作用，进一步提高文字识别准确率。

本实施例中对纹理特征进行过滤处理注意力机制被记为第一类注意力，包括空间注意力机制和/或通道注意力机制。

空间注意力机制可以理解为将原始图片中的空间信息变换到另一个空间中并保留了关键信息。其实现方法可以增加到卷积神经网络的任意层，普通的卷积神经网络中的池化层(pooling layer)直接用一些最大池化(max pooling)或者平均池化(averagepooling)的方法，将图片信息压缩，减少运算量提升准确率。但是这种方法太过于粗暴，直接将信息合并会导致很多关键信息无法识别出来。

所以本申请将空间注意力机制引入其中，将图片中的的空间域信息做对应的空间变换(spatial transformer)，从而能将关键的信息提取出来，因为训练出的空间变换能够找出图片信息中需要被关注的区域，即空间注意力机制的引入能够对上一层信号的关键信息进行识别，并且该信息矩阵是一个可以微分的矩阵，而复杂的变换信息也可以用核函数来表示；同时这个空间变换又能够具有旋转、缩放变换的功能，这样图片局部的重要信息能够通过变换而被提取出来，也就是说，空间注意力机制能够将图像特征中的有效文字部分增强，弱化其他背景区域。

通道注意力机制简单的理解就是对不同通道赋予不同的权重，从而可以增强对关键通道的注意力。如在卷积神经网络中，每一张图片初始会由(R，G，B)三通道表示出来，之后经过不同的卷积核之后，每一个通道又会生成新的信号，比如图片特征的每个通道使用64核卷积，就会产生64个新通道的矩阵(H，W，64)，其中，H、W分别表示图片特征的高度和宽度。

每个通道的特征其实就表示该图片在不同卷积核上的分量，从而能够将这个特征一个通道的信息给分解成64个卷积核上的信号分量。既然每个信号都可以被分解成核函数上的分量，产生的新的64个通道对于关键信息的贡献肯定有多有少，如果给每个通道上的信号都增加一个权重，来代表该通道与关键信息的相关度的话，这个权重越大，则表示相关度越高。

本申请将通道注意力机制引入其中，对不同的通道给予不同的注意力，对背景、噪音等信息分配较少的计算资源，能够显著提高计算效率、提高识别准确率。

本申请中也可以将空间注意力机制和通道注意力机制结合起来，形成混合域注意力机制，这是因为，空间注意力机制忽略了通道域中的信息，将每个通道中的图片特征同等处理，这种做法会将空间域变换方法局限在原始图片特征提取阶段，应用在神经网络层其他层的可解释性不强。而通道注意力机制是对一个通道内的信息直接全局平均池化，而忽略每一个通道内的局部信息。因此，可将二者结合起来，形成混合域注意力机制，能够克服以上所述的单一的注意力机制的缺陷。

步骤S130，基于第二类注意力机制和注意力增强特征得到文字识别结果，其中，第二类注意力机制包括互注意力机制。

第二类注意力在本申请中用于根据获得的注意力增强特征，识别出目标图像中的文字。其中，第二类注意力机制包括互注意力机制，互注意力机制是注意力机制的一种变体，是一种双向注意力。当利用机器学习方法实现本申请的技术方案时，互注意力机制可以以文字识别模型中的互注意力模块实现，互注意力模块在训练和预测阶段使用注意力增强特征作为相同的输入。

此外，本申请中的文字识别模型在训练阶段，整体网络框架的运行可以是并行的，以提升计算效率。

由图1所述的方法可以看出，本申请将多种注意力机制有机结合应用于文字识别，能够快速识别字符特征，而不受文字排版的影响，显著提升文字识别的准确率，尤其对于不规则文字的识别，效果显著，且计算量小、计算速度快、可用性强、适用范围广。

在本申请的一个实施例中，在上述方法中，基于第一类注意力机制对纹理特征进行过滤，得到注意力增强特征包括：基于第一类注意力机制生成纹理特征的信息矫正掩模；将生成的各信息矫正掩模分别与纹理特征进行融合，得到相应的注意力增强特征。

第一类注意力机制包括空间注意力机制和通道注意力机制，其中空间注意力将目标图像的纹理特征中的有效文字部分增强，弱化其他背景区域。具体来说，基于空间注意力机制，对目标图像的纹理特征进行文字加强处理，最终输出一个文字前景的掩模(mask)，作为信息矫正掩膜，采用此文字前景的掩模与提取的目标图像的纹理特征融合起来，即得到注意力增强特征，以达到了对文字前景加强的目的。空间注意力机制实现方式有很多种，例如卷积块注意模块(Convolutional Block Attention Module，CBAM)，全文信息网络(global context，GCNet)等。

通道注意力机制能够将图像特征通道中的有效纹理信息保留，去除无效的纹理信息(例如图像中的底纹、盖章等)。具体来说，基于通道注意力机制，对目标图像的纹理特征进行去噪处理，最终输出一个文字通道的掩模，作为信息矫正掩膜，后续用来和提取出的纹理特征结合。通道注意力机制实现方式有很多种，例如：卷积块注意模块，双向联想记忆神经网络(Bidirectional Associative Memory，BAM)，SE block(Sequeze and Excitationblock，业内暂无中文名)等。

关于特征融合，其算法可采用现有技术中的任意一种，包括但不限于：基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、以及基于深度学习理论算法。如基于稀疏表示理论的特征融合算法是对样本提取多特征后建立特征联合稀疏矩阵，这个矩阵就是多特征融合的结果。又如基于深度学习理论的特征融合算法，就是将多个神经网络得到的特征进行融合就得到了融合的特征。

在本申请的一个实施例中，在上述方法中，第一类注意力机制还包括全局注意力机制和/或局部注意力机制。

全局注意力机制是为了解决模型对于所有特征都“一视同仁”的问题而引入的，这些问题可采用全局注意力进行解决。即，全局注意力机制对目标图像全局注意力进行建模，并将其应用在通道维度上，通过对特征图进行矩阵乘法，计算自相关矩阵等统计特征，然后进行掩模化处理，将得到的掩模后续用来和提取出的纹理特征结合，全局注意力机制实现方式有很多种，例如非局部神经网络(Non-local Neural Networks)等。

在保证计算精确性的同时，为了解决计算成本，本实施例引入了局部注意力机制，相对于全局注意力机制，局部注意力机制即每次解码(decoder)时不再考虑编码器(encoder)的全部隐藏状态了，只考虑局部的隐藏状态，因此可大幅度节约计算成本，提升计算速度。

局部注意力机制是对目标图像局部注意力进行建模，以提取出紧凑、有效的区域。通过卷积、局部连接等操作，将局部区域的特征值通过插值，然后进行掩模化处理，将得到的掩模与提取出的纹理特征结合。该部分实现方式有很多种，例如：可变卷积v1(deformable convnets v1)，可变卷积v2(deformable convnets v2)等。

在预测阶段，可将基于全局注意力机制得到的注意力增强特征作为互注意力机制的V输入和K输入，将基于局部注意力机制得到的注意力增强特征作为互注意力机制的Q输入。

在本申请的一个实施例中，在上述方法中，第二类注意力机制还包括自注意力机制，基于第二类注意力机制和注意力增强特征得到文字识别结果包括：利用自注意力机制确定文字预测结果；基于互注意力机制、注意力增强特征和文字预测结果得到文字识别结果。

自注意力机制是注意力机制的一种特殊形式，其更加关注自身，本质是计算跟自己相关的序列，即目标序列与源序列是一样的。

在对目标图像中的文字进行识别时，本实施例先采用自注意力机制对上述注意力加强特征进行初步的识别，获得文字预测结果，可将此文字预测结果作为在预测阶段的初始值，在计算互注意力后得到新的预测结果，然后迭代式的使用新的预测结果作为输入，继续进行预测，直到遇到终止符号为止。

在本申请的一个实施例中，在上述方法中，自注意力机制通过文字识别模型中的自注意力模块实现；在训练文字识别模型时，自注意力模块根据输入的训练图像的标注信息输出自注意力特征，以使文字识别模型根据自注意力特征和注意力增强特征的融合后的特征确定文字识别结果。

在本实施例中，自注意力机制被用于训练阶段，具体的，在文字识别模型中设置自注意力模块，在训练图像通过以上所述方法进行训练，获得标注信息后，还可以进一步的通过自注意力模块处理，即，自注意力模块将训练图像的标注信息作为输入，提取自相关注意力特征，并将其与注意力增强特征的融合，得到融合特征，再根据融合特征确定文字识别结果，这样显著提高了训练的准确率。

需要强调的是，自注意力机制在训练阶段和预测阶段的输入是不同的，在训练阶段，以训练图像已经得到的标注信息为输入，而在预测阶段，没有标注信息，则是通过迭代的方式最后得出预测结果。

本实施例中的预测结果可以作为文字识别的初始值，这样既能够显著提高文字识别的准确率，又能够大幅度降低计算时间，显著提高计算效率。

本实施例采用自注意力模块，减少了对外部信息的依赖，更侧重捕捉数据或特征的内部相关性，进一步提高了文字识别的准确率。

在本申请的一个实施例中，上述方法可应用于文字识别模型中，文字识别模型训练时使用的训练图像经过如下的至少一项预处理：旋转、形变、色彩变换。

为了增强文字识别模型的鲁棒性，在对模型进行训练时，可对训练图像进行预处理，使得训练图像中的文字不规划化程度更高，预处理可为但不限于随机的旋转、形变、色彩变换等。

以上实施例可单独实施，也可以结合实施，图2示出了根据本申请另一个实施例的文字识别方法的流程示意图。

首先，获取目标图像的纹理特征。

基于空间注意力机制对成纹理特征进行文字加强处理，得到文字前景的掩模，将文字前景的掩模与纹理特征融合；基于通道注意力机制对成纹理特征进行去噪处理，得到文字通道的掩模，将文字通道的掩模与纹理特征融合；基于全局注意力机制对特征图进行矩阵乘法，计算自相关矩阵等统计特征，然后进行掩模化处理，将得到的掩模与纹理特征融合；通过卷积、局部连接等操作，将局部区域的特征值通过插值，然后进行掩模化处理，将得到的掩模与纹理特征融合,得到注意力加强特征。

对注意力加强特征进行自注意力特征提取，并将提取的特征与注意力加强特征融合，得到融合特征。

利用自注意力机制，根据融合特征，确定文字预测结果。将文字预测结果作为初始值，利用互注意力机制根据融合特征，确定文字识别结果。

图3示出了根据本申请一个实施例的文字识别装置的结构示意图，该文字识别装置300包括：

特征提取单元310，用于提取目标图像的纹理特征。

注意力加强单元320，用于基于第一类注意力机制对所述纹理特征进行过滤，得到注意力增强特征，其中，所述第一类注意力机制包括空间注意力机制和/或通道注意力机制。

识别单元330，用于基于第二类注意力机制和所述注意力增强特征得到文字识别结果，其中，所述第二类注意力机制包括互注意力机制。

第二类注意力在本申请中用于根据获得的注意力增强特征，识别出目标图像中的文字。其中，第二类注意力机制包括互注意力机制，互注意力机制是注意力机制的一种变体，是一种双向注意力，其在训练和预测阶段使用相同的输入。当利用机器学习方法实现本申请的技术方案时，互注意力机制可以以文字识别模型中的互注意力模块实现，互注意力模块，其在训练和预测阶段使用注意力增强特征作为相同的输入。

在本申请的一个实施例中，在上述装置中，注意力加强单元320，用于基于第一类注意力机制生成纹理特征的信息矫正掩模；将生成的各信息矫正掩模分别与纹理特征进行融合，得到相应的注意力增强特征。

在本申请的一个实施例中，在上述装置中，第一类注意力机制还包括全局注意力机制和/或局部注意力机制。

在本申请的一个实施例中，在上述装置中，识别单元330，用于将基于全局注意力机制得到的注意力增强特征作为互注意力机制的V输入和K输入，将基于局部注意力机制得到的注意力增强特征作为互注意力机制的Q输入。

在本申请的一个实施例中，在上述装置中，第二类注意力机制还包括自注意力机制，识别单元330，还用于利用自注意力机制确定文字预测结果；基于互注意力机制、注意力增强特征和文字预测结果得到文字识别结果。

在本申请的一个实施例中，在上述装置中，自注意力机制通过文字识别模型中的自注意力模块实现；在训练文字识别模型时，自注意力模块根据输入的训练图像的标注信息输出自注意力特征，以使文字识别模型根据自注意力特征和注意力增强特征的融合后的特征确定文字识别结果。

在本申请的一个实施例中，上述装置可应用于文字识别模型中，文字识别模型训练时使用的训练图像经过如下的至少一项预处理：旋转、形变、色彩变换。

需要说明的是，上述实施例中的文字识别装置可分别用于执行前述实施例中的文字识别方法，因此不再一一进行具体的说明。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，申请方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的机制进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的机制或单元或组件组合成一个机制或单元或组件，以及此外可以把它们分成多个子机制或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件机制实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的文字识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备400包括处理器410和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器420。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码431的存储空间430。例如，用于存储计算机可读程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码431。计算机可读程序代码431可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。图5示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质500存储有用于执行根据本申请的方法步骤的计算机可读程序代码431，可以被电子设备400的处理器410读取，当计算机可读程序代码431由电子设备400运行时，导致该电子设备400执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码431可以执行上述任一实施例中示出的方法。计算机可读程序代码431可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文字识别方法，其特征在于，包括：

提取目标图像的纹理特征；

基于第一类注意力机制对所述纹理特征进行过滤，得到注意力增强特征，其中，所述第一类注意力机制包括空间注意力机制和/或通道注意力机制；

基于第二类注意力机制和所述注意力增强特征得到文字识别结果，其中，所述第二类注意力机制包括互注意力机制。

2.根据权利要求1所述的方法，其特征在于，所述基于第一类注意力机制对所述纹理特征进行过滤，得到注意力增强特征包括：

基于所述第一类注意力机制生成所述纹理特征的信息矫正掩模；

将生成的各信息矫正掩模分别与所述纹理特征进行融合，得到相应的注意力增强特征。

3.根据权利要求1所述的方法，其特征在于，所述第一类注意力机制还包括全局注意力机制和/或局部注意力机制。

4.根据权利要求3所述的方法，其特征在于，所述基于第二类注意力机制和所述注意力增强特征得到文字识别结果包括：

将基于所述全局注意力机制得到的注意力增强特征作为互注意力机制的V输入和K输入，将基于所述局部注意力机制得到的注意力增强特征作为互注意力机制的Q输入。

5.根据权利要求1所述的方法，其特征在于，所述第二类注意力机制还包括自注意力机制，所述基于第二类注意力机制和所述注意力增强特征得到文字识别结果包括：

利用所述自注意力机制确定文字预测结果；

基于所述互注意力机制、所述注意力增强特征和所述文字预测结果得到文字识别结果。

6.根据权利要求5所述的方法，其特征在于，所述自注意力机制通过文字识别模型中的自注意力模块实现；

在训练所述文字识别模型时，所述自注意力模块根据输入的训练图像的标注信息输出自注意力特征，以使文字识别模型根据自注意力特征和注意力增强特征的融合后的特征确定文字识别结果。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法应用于文字识别模型中，所述文字识别模型训练时使用的训练图像经过如下的至少一项预处理：旋转、形变、色彩变换。

8.一种文字识别装置，其特征在于，该装置包括：

特征提取单元，用于提取目标图像的纹理特征；

9.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。