CN111428593A

CN111428593A - 一种文字识别方法、装置、电子设备及存储介质

Info

Publication number: CN111428593A
Application number: CN202010172679.8A
Authority: CN
Inventors: 宋祺; 姜仟艺; 刘曦; 张睿
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-17

Abstract

本申请公开了一种文字识别方法、装置、电子设备及存储介质，该方法包括：对目标图像进行纹理特征编码，生成第一特征序列；对第一特征序列进行解码，得到第一识别结果；基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列；对第二特征序列进行解码，得到第二识别结果；根据第一识别结果和第二识别结果联合确定文字识别结果。本申请的有益效果在于，将文字本身特征与上下文互信息相结合，显著提高文字识别的准确率，且计算量小、计算速度快、可用性强。

Description

一种文字识别方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种文字识别方法、装置、电子设备及存储介质。

背景技术

文字识别作为计算机视觉中的一种常用技术，被广泛应用于文档分析、证照识别、街景识别、资质审核、自动录入等场景中，为人们的日常生活和工作提供了很大的便利。但是现有技术依然存在着很多不足之处，如某些文字识别方法仅考虑到了字符本身的特征，忽略了字符之间的上下文语义特征，在某些字符由于光照、污渍等产生遮挡难以识别时，无法基于其它字符内容进行上下文联合推断识别。而某些文字识别方法又过于依赖上下文信息，导致极其容易混淆相似文字，例如，如果数据中“麦当劳”出现的次数远多于“麦肯基”，那么所有的“麦肯基”都可能被识别为“麦当劳”。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种文字识别方法、装置、电子设备及存储介质。

依据本申请的一个方面，提供了一种文字识别方法，该方法包括：

对目标图像进行纹理特征编码，生成第一特征序列；

对第一特征序列进行解码，得到第一识别结果；

基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列；

对第二特征序列进行解码，得到第二识别结果；

根据第一识别结果和第二识别结果联合确定文字识别结果。

可选的，在上述方法中，对用于文字识别的图像进行纹理特征编码，生成第一特征序列包括：

根据卷积神经网络对目标图像进行特征提取，得到目标图像的图像特征；

对图像特征进行注意力处理，确定目标图像中文字前景的掩模；

将掩模与图像特征进行融合，得到第一特征序列。

可选的，在上述方法中，卷积神经网络中池化层的宽度方向步长大于高度方向步长。

可选的，在上述方法中，对图像特征进行注意力处理包括：

基于自注意力模块对图像特征进行注意力处理，自注意力模块包括如下的至少一种：卷积块注意模块、瓶颈注意模块、挤压和激发模块。

可选的，在上述方法中，对第一特征序列进行解码，得到第一识别结果包括：

对第一特征序列，利用连接时序分类算法进行解码，得到各字符的类别及类别的对应概率。

可选的，在上述方法中，对第二图像特征序列进行解码，得到第二识别结果包括：

对第二特征序列，利用基于注意力的序列到序列识别算法进行解码，得到各字符的类别及类别的对应概率。

可选的，在上述方法中，根据第一识别结果和第二识别结果联合确定文字识别结果包括：

对第一识别结果和第二识别结果进行概率融合，得到文字识别结果。

依据本申请的另一方面，提供了一种文字识别装置，该装置包括：

第一编码单元，用于对目标图像进行纹理特征编码，生成第一特征序列；

第一解码单元，用于对第一特征序列进行解码，得到第一识别结果；

第二编码单元，用于基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列；

第二解码单元，用于对第二特征序列进行解码，得到第二识别结果；

分析单元，用于根据第一识别结果和第二识别结果联合确定文字识别结果。

可选的，在上述装置中，第一编码单元，用于根据卷积神经网络对目标图像进行特征提取，得到目标图像的图像特征；对图像特征进行注意力处理，确定目标图像中文字前景的掩模；以及将掩模与图像特征进行融合，得到第一特征序列。

可选的，在上述装置中，第一编码单元，卷积神经网络中池化层的宽度方向步长大于高度方向步长。

可选的，在上述装置中，第一编码单元，用于基于自注意力模块对图像特征进行注意力处理，自注意力模块包括如下的至少一种：卷积块注意模块、瓶颈注意模块、挤压和激发模块。

可选的，在上述装置中，第一解码单元，用于对第一特征序列，利用连接时序分类算法进行解码，得到各字符的类别及类别的对应概率。

可选的，在上述装置中，第二解码单元，用于对第二特征序列，利用基于注意力的序列到序列识别算法进行解码，得到各字符的类别及类别的对应概率。

可选的，在上述装置中，分析单元，用于对第一识别结果和第二识别结果进行概率融合，得到文字识别结果。

依据本申请的又一方面，提供了一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如上任一的方法。

依据本申请的再一方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现如上任一的方法。

由上述可知，本申请的技术方案，通过对目标图像进行纹理特征编码，生成第一特征序列；对第一特征序列进行解码，得到第一识别结果；基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列；对第二图像特征序列进行解码，得到第二识别结果；根据第一识别结果和第二识别结果联合确定文字识别结果。本申请的有益效果在于，将文字本身特征与上下文互信息相结合，显著提升文字识别的准确率，且计算量小、计算速度快、可用性强。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的文字识别方法的流程示意图；

图2示出了根据本申请另一个实施例的文字识别方法的流程示意图；

图3示出了根据本申请一个实施例的文字识别装置的结构示意图；

图4示出了根据本申请一个实施例的电子设备的结构示意图；

图5示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1示出了根据本申请一个实施例的文字识别方法的流程示意图，如图1所示，该文字识别方法包括：

步骤S110，对目标图像进行纹理特征编码，生成第一特征序列。

计算机文字识别，也称光学字符识别(Optical Character Recognition，OCR)，它是利用光学技术和计算机技术把图像中的、或印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式，计算机文字识别技术也是实现文字高速录入的一项关键技术。

首先，对目标图像进行纹理特征编码。其中，待识别的文字的语种可以但不限于：中文、英文、日文、韩文、蒙文等；待识别的文字可以为印刷体，也可以为手写体，印刷体可为但不限于宋体、楷体、黑体等，手写体可为但不限于联机手写和脱机手写；如果待识别的文字印在或写在纸上，可以采用拍照、扫描等方式获取目标图像。

由于目标图像在获取的过程中，由于光照、遮挡、污渍、会造成文字畸变，产生断笔、粘连和污点等干扰，所以在对目标图像中的特征编码前，可以对带有噪声的目标图像进行处理，也称预处理。本申请对于预处理的方法并不做限定，可采用现有技术中的一种或几种，包括但不限于：灰度化、二值化，倾斜检测与校正，行、字切分，平滑，规范化等等。

纹理特征编码，主要指从单个字符图像上提取统计特征或结构特征，将上述特征表示为一序列，即为编码，其结果输出为第一特征序列，可作为后续步骤的输入信息。纹理是一种反映图像中同质现象的视觉特征，它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理特征的提取可采用现有技术中的一种或几种，包括但不限于：统计方法、几何法、模型法、信号处理法、结构方法。以统计方法为例，其是基于像元及其邻域的灰度属性,研究纹理区域中的统计特性,或像元及其邻域内的灰度的一阶、二阶或高阶统计特性，常见算法有：灰度共生矩阵、从图像的自相关函数，即图像的能量谱函数，提取纹理特征、以及半方差图法。

步骤S120，对第一特征序列进行解码，得到第一识别结果。

解码过程是将序列特征信息转化为文字的识别结果，解码过程可以采用现有技术中的一种或几种。如可以用文本行图像创建一个数据集，然后为图像的每个水平位置指定相应的字符，然后可以训练一个神经网络输出每个水平位置的字符得分。由于第一特征序列仅是基于纹理特征表达，因此该输出结果主要依赖字符的本身特征，记为第一识别结果。

步骤S130，基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列。

递归神经网络(Recursive Neural Network,RNN)是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络(Artificial Neural Network,ANN)，是深度学习算法之一，包含时间递归神经网络和结构递归神经网络。递归神经网络处理的对象是一种时间序列数据，它将数据信息流以一种循环的方式进行传递处理，具备持续性和记忆性，其中，持续性值在时间序列信息中，前后数据见不是相互独立，而是相互依赖的，当前阶段的输出结果受到过去的决策影响，同理，当前节点的输出也会影响到后面的决策；记忆性指可以保留序列的“记忆”信息，例如：在序列式的个性化推荐场景中，为了在当前时刻给用户行为记录为“记忆”，类似于人的大脑机制，这些记忆将有助于对信息进行筛选。目前，长短期记忆(Long Short-Term Memory，LSTM)以及基于长短期记忆衍生的门控循环单元(Gated Recurrent Unit，GRU)网络作为常用的时间递归神经网络得到了广泛的关注和应用。本申请对采用的递归神经网络不作限制，可为现有技术中的一种或几种，如以上陈述示例。

基于递归神经网络对第一特征序列进行编码，可得到目标图像中的上下文互信息。所谓互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。该步骤在对第一特征序列，即图像纹理特征提取的输出结果上，进一步采用递归神经网络来对待识别文字字符之间的上下文互信息进行编码，得到一个包含上下文信息的特征表达，记为第二序列特征。

步骤S140，对第二图像特征序列进行解码，得到第二识别结果。

同步骤S120，解码过程是将序列特征信息转化为文字的识别结果，解码过程可以采用现有技术中的一种或几种。由于第二特征序列引入了递归神经网络，更加侧重字符之间的上下文互信息，因此该输出结果除字符本身特征外，还考虑了对字符之间上下文语义特征。在某些情况下，由于污渍、遮挡等原因可能造成目标图像中文字串中某一个或几个无法辨认或丢失，此时，就可以根据上下文语义推测出无法识别的文字。

步骤S150，根据第一识别结果和第二识别结果联合确定文字识别结果。

将第一识别结果和第二识别结果结合起来确定最终的文字识别结果，例如第一识别结果与第二识别结果一致，则取二者之一作为最终识别结果；又如，第一识别结果为“申华大地”，而第二识别结果为“中华大地”，根据上下文语义，则取后者为最终识别结果。

由图1所述的方法可以看出，本申请将文字本身特征与上下文互信息相结合，显著提高文字识别的准确率，且计算量小、计算速度快、可用性强。

在本申请的一个实施例中，在上述方法中，对用于文字识别的图像进行纹理特征编码，生成第一特征序列包括：根据卷积神经网络对目标图像进行特征提取，得到目标图像的图像特征；对图像特征进行注意力处理，确定目标图像中文字前景的掩模；将掩模与图像特征进行融合，得到第一特征序列。

卷积神经网络(Convolutional Neural Networks,CNN)的特点就是：局部连接性和权值共享性。对一幅图像中的某个像素p来说，一般离像素p越近的像素对其影响也就越大,即局部连接性；根据自然图像的统计特性，某个区域的权值也可以用于另一个区域，即权值共享性。

对于一个卷积核将其与给定的图像做卷积就可以提取一种图像的特征，不同的卷积核可以提取不同的图像特征。举例来讲，我们可以采用索贝尔Sobel卷积核来进行特征提取，可以采用一张图像，首先用Sobel—Gx卷积核来对图像做卷积，然后将所得的矩阵的每个元素都加上偏置值b，再将加上偏置值的矩阵的每个元素都输入到激活函数中，经过计算即得到最终结果。同理，也可以利用Sobel—Gy卷积核来进行特征提取，当然两个卷积核提取出了不同的图像特征，实际中，一般会使用十几个或者几十个卷积核来提取图像特征，进而来进行下一步的运算。

本申请对卷积神经网络不作限制，其可以为现有技术中的一种或几种，其可以为但不限于经典卷积神经网络结构，如VGGNet(业内暂无中文名)，ResNet(业内暂无中文名)或InceptionNet(业内暂无中文名)。

注意力，简单而言就是在众多信息中把注意力集中放在重要的点上，选出关键信息，而忽略其他不重要的信息。深度学习中的注意力机制(Attention Mechanism)正是如此，去学习不同局部的重要性，再结合起来。在本实施例中，采用注意力机制对从目标图像提取的图像特征做进一步的处理，就是要把权重主要分配在目标图像的文字上，处理后，得到目标图像中文字前景的掩模，前景的掩模为黑白二值图，由于被识别的对象为文字，那么其前景掩膜中的白色部分会呈现出文字形状，其他背景或噪音为黑色。

将掩模与图像特征进行融合，得到第一特征序列。将采用卷积神经网络从目标图像提取的图像特征与前景掩膜相融合，这样能够起到强化文字前景信息，排除背景干扰的作用，进一步提高文字识别准确率。

在本申请的一个实施例中，在上述方法中，卷积神经网络中池化层的宽度方向步长大于高度方向步长。

通常池化层所使用的步长，在宽和高上相等，在本实施例中，为了使水平方向有更高的分辨率，在设置池化层参数时，可以将积神经网络中池化层的宽度方向步长设置为大于高度方向步长，如stride设置为[2,1]。

在本申请的一个实施例中，在上述方法中，对图像特征进行注意力处理包括：基于自注意力模块对图像特征进行注意力处理，自注意力模块包括如下的至少一种：卷积块注意模块(Convolutional Block Attention Module)、瓶颈注意模块(BottleneckAttention Module)、挤压和激发模块(Sequeze and Excitation Block)。

自注意力机制是注意力机制的一种特殊形式，其本质是计算跟自己相关的序列，即目标序列与源序列是一样的。常用的自注意力模块有卷积块注意模块、瓶颈注意模块、挤压和激发模块，本实施例中采用的模块为上述模块中的至少一种。

其中，卷积块注意模块，从结构上来看，它结合了空间注意力机制和通道注意力机制，从效果上来看，它能提高分类和检测的正确率，其在通道注意力机制中引入全连接，并通过全连接降维，有利于提取更重要的信息。瓶颈注意模块把重心放在了注意力对于一般深度神经网络的影响上，它可以结合到任何前向传播卷积神经网络中。挤压和激发模块的思想是通过学习的方式来获得每个特征通道的重要程度，依照这个重要程度来提升有用的特征并抑制对当前任务用处不大的特征。

本实施例采用自注意力模块，减少了对外部信息的依赖，更侧重捕捉数据或特征的内部相关性，显著提高了计算效率。

在本申请的一个实施例中，在上述方法中，对第一特征序列进行解码，得到第一识别结果包括：对第一特征序列，利用连接时序分类算法进行解码，得到各字符的类别及类别的对应概率。

连接时序分类算法(Connectionist Temporal Classification，CTC)关心一个输入序列到一个输出序列的结果，其只关心预测输出的序列是否和真实的序列是否接近或相同，而不关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐，直接输出序列预测的概率，不需要外部的后处理。

本实施例采用连接时序分类算法对第一特征序列进行解码，举一个简单而快速的算法是最佳路径解码，它包括两个步骤：通过在每个时间步中选择最可能的字符来计算最佳路径；首先删除重复的字符，然后从路径中删除所有空格，从而撤消编码，剩下的表示已识别的文本，即连接时序分类算法忽略了图像中字符的位置和宽度，不需要对已识别的文本进行进一步处理，输出结果为各字符的类别及类别的对应概率。

本实施例中，第一特征序列中包含目标图像中的纹理特征，因此输出结果是更加侧重文字本身，采用连接时序分类算法解码，在提高识别效率的同时，还可以提高单个文本识别鲁棒性。

在本申请的一个实施例中，在上述方法中，对第二图像特征序列进行解码，得到第二识别结果包括：对第二特征序列，利用基于注意力的序列到序列识别算法进行解码，得到各字符的类别及类别的对应概率。

基于注意力的序列到序列识别算法是将序列到序列(Sequence-to-Sequence，Seq2Seq)融合注意力机制，可以实现从一个序列到另外一个序列的转换，将编码得到的向量变成可变长度的目标的信号序列，且不固定了输入序列和输出序列的大小。

本实施例中，第二特征序列中包含了上下文互信息，同时对第二特征序列的解码过程，利用序列到序列的注意力模块，因此本实施例中的识别结果不仅依赖字符本身的特征，同时更加侧重字符之间的上下文的相互联系，举例来讲，在识别过程中，一个字符为“中”的概率为50％，为“申”的概率也为50％，而紧随该字符后的三个字符为“华大地”，根据上下文互信息，该字符会被识别为“中”，以和上下文语义相符。

本实施例采用了基于注意力的序列到序列识别算法进行解码，能够联系上下文语义确定每个字符类别和其对应概率，尤其显著提高了目标图像中有遮挡、褶皱的情况的文字识别的准确率。

在本申请的一个实施例中，在上述方法中，根据第一识别结果和第二识别结果联合确定文字识别结果包括：对第一识别结果和第二识别结果进行概率融合，得到文字识别结果。

在得到第一识别结果和第二识别结果后，可以采用概率融合方法确定最终的识别结果，融合算法可以是任意一种依赖概率的计算方式。具体的，例如公式1或公式2：

公式1；

S＝argmax(min(P(S1₁),P(S1₂),,,P(S1_m)),min(P(S2₁),P(S2₂),,,P(S2_n))) 公式2

其中，S1代表第一识别结果，S1_i或S1_m代表第一识别结果的第i个或第m个字符；S2代表第二识别结果，S2_i或S2_m代表二识别结果的第i个或第m个字符。

本实施例中，采用概率融合算法，根据第一识别结果和第二识别结果确定最终的识别结果，进一步提高了文字识别的准确率。

上述实施例可以分别单独实施，也可以结合实施，具体地，图2示出了根据本申请再一个实施例的一种文字识别方法的流程示意图。

首先基于根据卷积神经网络对目标图像进行特征提取，得到目标图像的图像特征，然后基于自注意力模块处理得到的图像特征，得到目标图像中文字前景的掩膜，再将掩模与图像特征进行融合，得到第一特征序列。

对第一特征序列，利用连接时序分类算法进行解码，得到各字符的类别及类别的对应概率，记为第一识别结果。

基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列，对第二特征序列，利用基于注意力的序列到序列识别算法进行解码，得到各字符的类别及类别的对应概率，记为第二识别结果。

最后，将第一识别结果和第二识别结果进行概率融合，得到最终的文字识别结果。

可以将本实施例看成2个分支的汇总，分支1的流程为首先基于根据卷积神经网络对目标图像进行特征提取、然后基于自注意力模块处理得到的图像特征，将掩模与图像特征进行融合，得到第一特征序列，利用连接时序分类算法进行解码，得到各字符的类别及类别的对应概率，记为第一识别结果。该分支主要对图像数据中字符的本身图像纹理特征进行显式建模，因此该分支的识别结果更加侧重字符本身的特征。

分支2的流程为首先基于根据卷积神经网络对目标图像进行特征提取、然后基于自注意力模块处理得到的图像特征，将掩模与图像特征进行融合，基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列，利用基于注意力的序列到序列识别算法进行解码，得到各字符的类别及类别的对应概率，记为第二识别结果。该分支主要对图像数据中字符之间的上下文互信息特征进行显式建模，因此该分支的识别结果还包含了上下与语义的特征。

本实施例将上述2个分支结合起来，在相同训练、测试情况下，文字识别准确率和识别性能均显著提高。如表1所示，本实施例的文字识别准确率和归一化编辑距离均高于现有技术。其中，归一化编辑距离是识别性能好坏的标准之一，其值越大，表示识别性能越好。

表1本实施例识别效果与现有技术对比

表2是本实施例与现有技术在一个文字识别公开测试集ReCTS上测试得到的性能指标，从表中可以看出，本实施例效果显著高于现有技术1和现有技术2。

表2本实施例识别效果与现有技术对比

方法	归一化编辑距离
		CNN+CTC(现有技术1)	0.9355
CNN+RNN+Seq2Seq(现有技术2)	0.9475
		本实施例	0.9545

图3示出了根据本申请一个实施例的一种文字识别装置的结构示意图，如图3所示，文字识别装置300包括：

第一编码单元310，用于对目标图像进行纹理特征编码，生成第一特征序列。

首先，对目标图像进行纹理特征编码。其中，待识别的文字的语种可以但不限于：中文、英文、日文、韩文、蒙文等；待识别的文字可以为印刷体，也可以为手写体，印刷体可为但不限于宋体、楷体、黑体等，手写体可为但不限于联机手写和脱机手写；如果被检测文字印在或写在纸上，可以采用拍照、扫描等方式获取目标图像。

第一解码单元320，用于对第一特征序列进行解码，得到第一识别结果。

第二编码单元330，用于基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列。

第二解码单元340，还用于对第二图像特征序列进行解码，得到第二识别结果。

同上述，解码过程是将序列特征信息转化为文字的识别结果，解码过程可以采用现有技术中的一种或几种。由于第二特征序列引入了递归神经网络，更加侧重字符之间的上下文互信息，因此该输出结果除字符本身特征外，还考虑了对字符之间上下文语义特征。在某些情况下，由于污渍、遮挡等原因可能造成目标图像中文字串中某一个或几个无法辨认或丢失，此时，就可以根据上下文语义推测出无法识别的文字。

分析单元350，用于根据第一识别结果和第二识别结果联合确定文字识别结果。

在本申请的一个实施例中，在上述装置中，第一编码单元310，用于根据卷积神经网络对目标图像进行特征提取，得到目标图像的图像特征；对图像特征进行注意力处理，确定目标图像中文字前景的掩模；以及将掩模与图像特征进行融合，得到第一特征序列。

在本申请的一个实施例中，在上述装置中，第一编码单元310，卷积神经网络中池化层的宽度方向步长大于高度方向步长。

在本申请的一个实施例中，在上述装置中，第一编码单元310，用于基于自注意力模块对图像特征进行注意力处理，自注意力模块包括如下的至少一种：卷积块注意模块、瓶颈注意模块、挤压和激发模块。

在本申请的一个实施例中，在上述装置中，第一解码单元320，用于对第一特征序列，利用连接时序分类算法进行解码，得到各字符的类别及类别的对应概率。

在本申请的一个实施例中，在上述装置中，第二解码单元340，用于对第二特征序列，利用基于注意力的序列到序列识别算法进行解码，得到各字符的类别及类别的对应概率。

在本申请的一个实施例中，在上述装置中，分析单元350，用于对第一识别结果和第二识别结果进行概率融合，得到文字识别结果。

由上述可知，本申请的技术方案，通过对目标图像进行纹理特征编码，生成第一特征序列；对第一特征序列进行解码，得到第一识别结果；基于递归神经网络对第一特征序列进行上下文互信息编码，生成第二特征序列；对第二图像特征序列进行解码，得到第二识别结果；根据第一识别结果和第二识别结果联合确定文字识别结果。申请的有益效果在于，将文字本身特征与上下文互信息相结合，显著提升文字识别的准确率，且计算量小、计算速度快、可用性强。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，申请方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的文字识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备400包括处理器410和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器420。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码431的存储空间430。例如，用于存储计算机可读程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码431。计算机可读程序代码431可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。图5示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质500存储有用于执行根据本申请的方法步骤的计算机可读程序代码431，可以被电子设备400的处理器410读取，当计算机可读程序代码431由电子设备400运行时，导致该电子设备400执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码431可以执行上述任一实施例中示出的方法。计算机可读程序代码431可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文字识别方法，其特征在于，包括：

对目标图像进行纹理特征编码，生成第一特征序列；

对所述第一特征序列进行解码，得到第一识别结果；

基于递归神经网络对所述第一特征序列进行上下文互信息编码，生成第二特征序列；

对所述第二特征序列进行解码，得到第二识别结果；

根据第一识别结果和第二识别结果联合确定文字识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对用于文字识别的图像进行纹理特征编码，生成第一特征序列包括：

对所述图像特征进行注意力处理，确定所述目标图像中文字前景的掩模；

将所述掩模与所述图像特征进行融合，得到所述第一特征序列。

3.如权利要求2所述的方法，其特征在于，所述卷积神经网络中池化层的宽度方向步长大于高度方向步长。

4.根据权利要求2所述的方法，其特征在于，所述对所述图像特征进行注意力处理包括：

基于自注意力模块对所述图像特征进行注意力处理，所述自注意力模块包括如下的至少一种：卷积块注意模块、瓶颈注意模块、挤压和激发模块。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一特征序列进行解码，得到第一识别结果包括：

对所述第一特征序列，利用连接时序分类算法进行解码，得到各字符的类别及类别的对应概率。

6.根据权利要求1所述的方法，其特征在于，所述对所述第二图像特征序列进行解码，得到第二识别结果包括：

对所述第二特征序列，利用基于注意力的序列到序列识别算法进行解码，得到各字符的类别及类别的对应概率。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据第一识别结果和第二识别结果联合确定文字识别结果包括：

对所述第一识别结果和所述第二识别结果进行概率融合，得到文字识别结果。

8.一种文字识别装置，其特征在于，该装置包括：

第二解码单元，用于对第二图像特征序列进行解码，得到第二识别结果；

9.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。