CN110443239A

CN110443239A - 文字图像的识别方法及其装置

Info

Publication number: CN110443239A
Application number: CN201910572252.4A
Authority: CN
Inventors: 王健宗; 闫旭; 王威; 韩茂琨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-12

Abstract

本发明公开了一种文字图像的识别方法及其装置，涉及大数据技术领域。该文字图像的识别方法包括：获取待识别文字图像，从待识别文字图像中提取多个图像区域，使用训练好的方向识别模型分别对每个图像区域进行方向识别。根据多个图像区域的正方向，确定待识别文字图像的正方向。根据待识别文字图像的正方向，使用训练好的文本识别模型对待识别文字图像进行文本识别。由此，实现了先使用方向识别模型确定待识别文字图像的正方向，再使用文本识别模型进行文本识别，能够对各种类型的文字图像进行识别，提高了文字图像识别方法的泛化能力。本发明实施例提供的技术方案能够解决现有技术中文字图像识别方法的泛化能力差的问题。

Description

文字图像的识别方法及其装置

【技术领域】

本发明涉及大数据技术领域，尤其涉及一种文字图像的识别方法及其装置。

【背景技术】

文字图像识别通过文字检测、文字识别、所需字段提取的方式实现，但先要确定待识别文字图像的正方向。

相关技术中，只能对指定类型的待识别文字图像自动确定正方向，然后进行文字图像的识别，存在泛化能力差的技术问题。

【发明内容】

有鉴于此，本发明实施例提供了一种文字图像的识别方法及其装置，用以解决现有技术中文字图像识别方法的泛化能力差的问题。

一方面，本发明实施例提供了一种文字图像的识别方法，所述方法包括：获取待识别文字图像；从所述待识别文字图像中提取多个图像区域；使用训练好的方向识别模型分别对每个所述图像区域进行方向识别；根据所述多个图像区域的正方向，确定所述待识别文字图像的正方向；以及根据所述待识别文字图像的正方向，使用训练好的文本识别模型对所述待识别文字图像进行文本识别。

进一步地，所述训练好的方向识别模型通过以下步骤训练生成：获取参考文字图像；其中，所述参考文字图像包括多个文本框；分别获取每个所述文本框对应的正方向标记和位置标记；从所述参考文字图像中随机裁剪出一个正方形区域；其中，所述正方形区域包括第一数值的所述文本框作为训练文本框；对所述正方形区域进行旋转，并分别修改所述正方形区域中的每个所述训练文本框对应的所述正方向标记；将所述正方形区域输入深度神经网络；将所述深度神经网络的输出和每个所述训练文本框对应的所述正方向标记和所述位置标记进行比较，以优化所述深度神经网络的参数；基于优化后的所述深度神经网络的参数确定所述训练好的方向识别模型。

进一步地，所述使用训练好的方向识别模型分别对每个所述图像区域进行方向识别，包括：将所述图像区域输入所述训练好的方向识别模型，以生成所述图像区域中所述多个文本框对应的所述正方向标记；根据所述多个文本框对应的所述正方向标记，计算所述图像区域分别对应不同所述正方向标记时的置信度；根据所述置信度，确定所述图像区域对应的所述正方向标记。

进一步地，在所述根据所述待识别文字图像的正方向，使用训练好的文本识别模型对所述待识别文字图像进行文本识别之前，还包括：对所述待识别文字图像进行灰度化处理。

进一步地，所述训练好的文本识别模型通过以下步骤训练生成：获取参考文本图像以及对应的参考文本；将所述参考文本图像输入两层栈式双向长短期记忆网络；使用损失函数计算所述两层栈式双向长短期记忆网络的输出和所述参考文本的差值，以训练所述两层栈式双向长短期记忆网络。

一方面，本发明实施例提供了一种文字图像的识别装置，所述装置包括：第一获取模块，用于获取待识别文字图像；提取模块，用于从所述待识别文字图像中提取多个图像区域；方向识别模块，用于使用训练好的方向识别模型分别对每个所述图像区域进行方向识别；第一确定模块，用于根据所述多个图像区域的正方向，确定所述待识别文字图像的正方向；以及文本识别模块，用于根据所述待识别文字图像的正方向，使用训练好的文本识别模型对所述待识别文字图像进行文本识别。

进一步地，所述装置还包括：第二获取模块，获取参考文字图像；其中，所述参考文字图像包括多个文本框；第三获取模块，分别获取每个所述文本框对应的正方向标记和位置标记；剪裁模块，用于从所述参考文字图像中随机裁剪出一个正方形区域；其中，所述正方形区域包括第一数值的所述文本框作为训练文本框；旋转模块，用于对所述正方形区域进行旋转；修改模块，用于分别修改所述正方形区域中的每个所述训练文本框对应的所述正方向标记；第一输入模块，用于将所述正方形区域输入深度神经网络；比较模块，用于将所述深度神经网络的输出和每个所述训练文本框对应的所述正方向标记和所述位置标记进行比较，以优化所述深度神经网络的参数；第二确定模块，用于基于优化后的所述深度神经网络的参数确定所述训练好的方向识别模型。

进一步地，所述方向识别模块包括：输入子模块，用于将所述图像区域输入所述训练好的方向识别模型，以生成所述图像区域中所述多个文本框对应的所述正方向标记；计算子模块，用于根据所述多个文本框对应的所述正方向标记，计算所述图像区域分别对应不同所述正方向标记时的置信度；确定子模块，用于根据所述置信度，确定所述图像区域对应的所述正方向标记。

进一步地，所述装置还包括：灰度化处理模块，用于对所述待识别文字图像进行灰度化处理。

进一步地，所述装置还包括：第四获取模块，用于获取参考文本图像以及对应的参考文本；第二输入模块，用于将所述参考文本图像输入两层栈式双向长短期记忆网络；计算模块，用于使用损失函数计算所述两层栈式双向长短期记忆网络的输出和所述参考文本的差值，以训练所述两层栈式双向长短期记忆网络。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的文字图像的识别方法的步骤。

一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的文字图像的识别方法。

在本发明实施例中，先使用方向识别模型确定待识别文字图像的正方向，再使用文本识别模型进行文本识别，能够对各种类型的文字图像进行识别，解决了现有技术中文字图像识别方法的泛化能力差的问题，达到了提高文字图像识别方法的泛化能力的效果。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例所提供的一种文字图像的识别方法的流程示意图；

图2为本发明实施例所提供的待识别文字图像的一个示例；

图3为本发明实施例所提供的长短期记忆网络的结构示意图；

图4为本发明实施例所提供的双层栈式双向长短期记忆神经网络的结构示意图；

图5为本发明实施例所提供的多层栈式双向长短期记忆神经网络的结构示意图；

图6为本发明实施例所提供的CTC模型识别文本图像的一个示例；

图7为本发明实施例所提供的一种方向识别模型的生成方法的流程示意图；

图8为本发明实施例所提供的确定待识别文字图像的正方向的一个示例；

图9为本发明实施例所提供的一种文字图像的识别装置的结构示意图；

图10为本发明实施例所提供的另一种文字图像的识别装置的结构示意图；以及

图11为本发明实施例提供的一种计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

基于上述现有技术的描述可以知道，相关技术中，只能对指定类型的待识别文字图像自动确定正方向，然后进行文字图像的识别，存在泛化能力差的技术问题。

针对这一问题，本发明实施例提供了一种文字图像的识别方法，先使用方向识别模型确定待识别文字图像的正方向，再使用文本识别模型进行文本识别，能够对各种类型的文字图像进行识别，提高了文字图像识别方法的泛化能力。

图1为本发明实施例所提供的一种文字图像的识别方法的流程示意图。如图1所示，该方法包括：

步骤S101，获取待识别文字图像。

其中，文字图像是指包括文字内容的图像，比如证件的照片，票据的照片，浏览页面的截图等，本发明实施例对此不做限制。

举例来说，如图2所示，图2中的票据的不同位置都可能包括待识别文字。

步骤S102，从待识别文字图像中提取多个图像区域。

需要说明的是，不同类型的待识别文字图像中的文字格式存在区别。具体来说，同一个文字图像中不同位置的文字的正方向可能不同。因此，为了确定待识别文字图像的正方向，需要对不同位置的文字的正方向分别进行识别，然后综合不同位置的文字的正方向，得到待识别文字图像的正方向。

举例来说，增值税发票上的税务信息是沿第一方向进行排列，而发票印刷者的信息则是沿着与第一方向垂直的第二方向进行排列。因此，在确定发票正方向时，需要综合考虑税务信息和发票印刷者信息对确定整个增值税发票正方向的影响，进而将第一方向作为确定发票正方向的参考方向。

应当理解，为了实现对不同位置的文字的正方向分别进行识别，并且能够降低对待识别文字图像进行方向识别的工作量，可以提取不同的图像区域作为方向识别的样本分别进行方向识别，进而得到整个待识别文字图像的正方向。

进一步地，由于不同类型的文字图像中文字的位置不同，而文字图像通常是长方形或者正方形。为了让本发明实施例所提出的文字图像的识别方法能够适用于各种类型的文字图像，一种可能的实现方式是，在文字图像的中心位置和四个角落共提取五个正方形的图像区域，作为通用的图像区域提取方案。其中，正方形的边长等于文字图像的高宽数值中较小值的一半。

步骤S103，使用训练好的方向识别模型分别对每个图像区域进行方向识别。

其中，训练好的方向识别模型可以识别出每个图像区域中的每段文字内容的正方向，并根据每个图像区域中多段文字内容的正方向，综合判断出每个图像区域的正方向。

步骤S104，根据多个图像区域的正方向，确定待识别文字图像的正方向。

可以理解，不同图像区域由于所处待识别文字图像的位置不同，文字内容占比不同，因此在确定待识别文字图像正方向时，影响力大小也不同。

步骤S105，根据待识别文字图像的正方向，使用训练好的文本识别模型对待识别文字图像进行文本识别。

可以理解，训练好的文本识别模型可以从正方向对待识别文字图像进行文本识别，以提高模型识别的效率和准确度。

其中，训练好的文本识别模型可以通过以下步骤训练生成：

步骤S11，获取参考文本图像以及对应的参考文本。

其中，参考文本图像和参考文本是用来训练文本识别模型的，因此参考文本是参考文本图像的正确识别结果，是通过人工识别的方式预先录入的。

步骤S12，将参考文本图像输入两层栈式双向长短期记忆网络。

需要说明的是，本发明实施例所提出的两层栈式双向长短期记忆网络是长短期记忆网络的优化网络。

如图3所示，长短期记忆网络相比于简单的循环神经网络，增加了记忆单元c、输入门i、遗忘门f及输出门o。这些门及记忆单元组合起来大大提升了循环神经网络处理长序列数据的能力。若将长短期记忆网络表示的函数记为F，则其公式为：

h_t＝F(x_t,h_t-1)

F由下列公式组合而成：

i_t＝σ(W_xix_t+W_hic_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfc_t-1+W_cfc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，i_t,f_t,c_t,o_t分别表示输入门，遗忘门，记忆单元及输出门的向量值，带有角标W的及b为模型参数，tanh为双曲正切函数，⊙表示逐元素的乘法操作。输入门控制着新输入进入记忆单元c的强度，遗忘门控制着记忆单元维持上一时刻值的强度，输出门控制着输出记忆单元的强度。三种门的计算方式类似，但有着完全不同的参数，它们各自以不同的方式控制着记忆单元c。长短期记忆网络通过给简单的循环神经网络增加记忆及控制门的方式，增强了其处理远距离依赖问题的能力，能够处理较长的序列数据。

长短期记忆网络中的h_t包含了时刻t之前的输入信息，也就是上文信息。同样，为了得到下文信息，我们可以使用反方向(将输入逆序处理)的循环神经网络。

如图4所示，结合构建深层循环神经网络的方法(深层神经网络往往能得到更抽象和高级的特征表示)，我们可以通过构建更加强有力的栈式双向长短期记忆神经网络，来对时序数据进行建模。

如图5所示，奇数层长短期记忆神经网络正向，偶数层长短期记忆神经网络反向，高一层的长短期记忆神经网络使用低一层长短期记忆神经网络及之前所有层的信息作为输入，对最高层长短期记忆神经网络序列使用时间维度上的最大池化即可得到文本的定长向量表示(这一表示充分融合了文本的上下文信息，并且对文本进行了深层次抽象)，最后将文本连接至softmax构建分类模型。

需要特别说明的是，在深度学习中，增加神经网络的层数意味着增加深度，增加参数量，在保证模型大小适中的情况下，更多的层数可以提取更加抽象图像特征信息。

深度学习最大的优势是具有更高级的对“结构”进行自动挖掘的能力，比如它不需要我们给出所有的特征，而是自发去寻找最合适对数据集进行描述的特征。

一个复杂模式，比如“人脸识别”，事实上可以看做一个简单模式的层级叠加，从人脸上的轮廓纹理这种底层模式，到眼睛鼻子这样的中级模式，直到一个独特个体这样最高级的复杂模式。

只有能够识别底层模式，才有可能找到中级模式，而找到中级模式才能进一步找到高级模式，无法直接对像素进行处理实现这种复杂模式。而是需要学习这种从简单模式到复杂模式的结构，所以要采用多层的网络结构。

可以理解，本发明实施例所提出的文本识别模型，也可以采用三层甚至更多层的栈式双向长短期记忆神经网络进行特征提取，本发明实施例对此不做限制。

步骤S13，使用损失函数计算两层栈式双向长短期记忆网络的输出和参考文本的差值，以训练两层栈式双向长短期记忆网络。

应当理解，两层栈式双向长短期记忆网络的输出就是对参考文本图像的识别结果，为了量化参考文本和参考文本图像的识别结果之间的差异，可以通过损失函数计算差值。

一种可能的实现方式是，使用CTC损失函数进行计算，CTC适合于输入特征和输出标签之间对齐关系不确定的时间序列问题，CTC可以自动端到端地同时优化模型参数和对齐切分的边界。

例如32x 256大小的图片，最大可切分256列，也就是输入特征最大256，而输出标签的长度最大设定是18，这种就可以用CTC模型进行优化。关于CTC模型，假设32x 256的图片，数字串标签是"123"，把图片按列切分(CTC会优化切分模型)，然后分出来的每块再去识别数字，找出这块是每个数字或者特殊字符的概率(无法识别的则标记为特殊字符"-")，这样就得到了基于输入特征序列(图片)的每一个相互独立建模单元个体(划分出来的块)(包括“-”节点在内)的类属概率分布。基于概率分布，算出标签序列是"123"的概率P(123)，当然这里设定"123"的概率为所有子序列之和，这里子序列包括'-'和'1'、'2'、'3'的连续重复。

举例来说，如图6所示，使用CTC模型识别包含THE-CAT-字母序列的文本图像，对应的识别结果可能为__TH____E_-_C__AAA__TT__-，对应的概率为P1，还可能为_T__H__EE__-_C__AA__T___，对应的概率为P2，对齐处理后，将重复字母和空格“_”进行去除，得到THE-CAT-字母序列对应的概率P，进而确定识别结果为THE-CAT-。

进一步地，为了减少文本识别模型训练和识别的计算量，一种可能的实现方式是，在根据待识别文字图像的正方向，使用训练好的文本识别模型对待识别文字图像进行文本识别之前，还包括：对待识别文字图像进行灰度化处理。

应当理解，图像中的每个像素的颜色由、G、B三个分量决定，而每个分量有256种值可取，这样一个像素点可以有1600多万(256*256*256)的颜色的变化范围。为了减少图像识别的计算量，可以将待识别文字图像进行灰度化处理。

第一种可能的实现方式是，求出每个像素点的R、G、B三个分量的平均值，然后将这个平均值赋予给这个像素点的三个分量。

第二种可能的实现方式是，根据YUV的颜色空间中，Y的分量的物理意义是像素点的亮度，由该值反映亮度等级，根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应：Y＝0.3R+0.59G+0.11B，以亮度值表达像素点的灰度值。

进一步地，为了让待识别文字图像的大小保持一致，提高文本识别的效率，一种可能的实现方式是，可以将待识别文字图像进行等比例缩放，使其高度为预设数值，比如32，再设定一个最长宽度数值，对于缩放后宽带小于最长宽度数值的，填充灰度值为0的像素点进行补齐。

相应地，也可以在训练文本识别模型时使用灰度化处理和/或等比例缩放处理后的参考文本图像进行模型训练，以减少模型训练的计算量。

综上所述，本发明实施例所提供的文字图像的识别方法，获取待识别文字图像，从待识别文字图像中提取多个图像区域。使用训练好的方向识别模型分别对每个图像区域进行方向识别，根据多个图像区域的正方向，确定待识别文字图像的正方向。根据待识别文字图像的正方向，使用训练好的文本识别模型对待识别文字图像进行文本识别。由此，实现了先使用方向识别模型待识别文字图像的正方向，再使用文本识别模型进行文本识别，能够对各种类型的文字图像进行识别，提高了文字图像识别方法的泛化能力。

为了更加清楚地说明本发明实施例所提出的方向识别模型，本发明实施例还提出了一种方向识别模型的生成方法。图7为本发明实施例所提供的一种方向识别模型的生成方法的流程示意图，如图7所示，训练好的方向识别模型可以通过以下步骤训练生成：

步骤S201，获取参考文字图像。

其中，参考文字图像包括多个文本框。

需要特别说明的是，与前述的参考文本图像不同，本发明实施例所提出的参考文字图像的目的是为了训练方向识别模型的方向识别性能，因此参考文字图像中的文字内容的正方向不同。文字内容以文本框的形式进行区分，同一个文本框中的文字内容的正方向相同。

进一步地，若某个文字图像中既存在多个方向的文字内容，又对应着正确的文本识别结果，那么该文字图像既可以作为参考文字图像来训练方向识别模型，又可以作为参考文本图像来训练文本识别模型。

步骤S202，分别获取每个文本框对应的正方向标记和位置标记。

应当理解，本发明实施例中的方向识别模型首先将图像区域中的文字内容以文本框的形式进行分割，再对每个文本框进行方向识别，进而确定图像区域的正方向。为了区分不同的文本框，需要用位置进行标记。

因此，在训练方向识别模型时，也需要获取用于训练的参考文字图像中的每个文本框对应的正方向标记，以及位置标记。

其中，一种可能的正方向标记方法是，-1表示方向不确定，0表示正方向，1表示逆时针90度，2表示逆时针180度，3表示逆时针270度。

一种可能的位置标记方法是，用文本框的四个顶点的横纵坐标，共8个数，作为位置编码进行标记。

步骤S203，从参考文字图像中随机裁剪出一个正方形区域。

其中，正方形区域包括第一数值的文本框作为训练文本框。

应当理解，由于本发明实施例所提出的图像区域为正方形，因此可以使用正方形区域进行方向识别模型的训练。

此外，结合每个文本框对应的位置标记，可以确定参考文字图像中哪些文本框在正方形区域中。

进一步地，为了让正方形区域更加具有代表性，一种可能的实现方式是，在从参考文字图像中随机裁剪出一个正方形区域之前，对参考文字图像的左右两侧各去除1/8宽度的部分，上下两侧各去除1/8高度的部分，得到优化后的参考文字图像。

进一步地，正方形区域的边长可以[len/3，len]中随机生成，len为参考文字图像的高宽的较小数值。

一种优选的实现方式是，正方形区域中至少包括三个文本框。

步骤S204，对正方形区域进行旋转，并分别修改正方形区域中的每个训练文本框对应的正方向标记。

需要说明的是，由于本发明实施例所提出的正方形区域是为了训练方向识别模型的方向识别性能，因此可以对正方形区域进行旋转，并将旋转后的正方形区域也作为方向识别模型的训练样本。

可以理解，在对正方形区域进行旋转之后，每个训练文本框对应的正方向标记也需要对应修改，作为新的训练样本中每个训练文本框对应的正方向标记。

步骤S205，将正方形区域输入深度神经网络。

其中，此处的正方形区域不仅包括从参考文字图像中直接裁剪得到的一个正方形区域，还包括步骤S204中旋转得到的新的训练样本。

步骤S206，将深度神经网络的输出和每个训练文本框对应的正方向标记和位置标记进行比较，以优化深度神经网络的参数。

步骤S207，基于优化后的深度神经网络的参数确定训练好的方向识别模型。

其中，深度神经网络可以是resnet网络或者mobilenet网络，mobilenet网络相比于resnet网络，模型更小,运行更快，识别更准确。

从而，实现了对方向识别模型的训练。

基于上述对方向识别模型训练过程的说明，可以知道，本发明实施例所提出的方向识别模型的训练数据是正方形区域中的文本框以及对应的正方向标记、位置标记。相应地，步骤S103，使用训练好的方向识别模型分别对每个图像区域进行方向识别，包括：

步骤S21，将图像区域输入训练好的方向识别模型，以生成图像区域中多个文本框对应的正方向标记。

需要说明的是，由于文本框的位置和所占图像区域的面积大小会影响其对对图像区域正方向的确定。因此，还需要根据文本框的位置标记，确定每个文本框对图像区域的正方向的确定的影响力，具体通过置信度来量化。

步骤S22，根据多个文本框对应的正方向标记，计算图像区域分别对应不同正方向标记时的置信度。

具体地，通过每个文本框的位置和所占图像区域的面积大小，对不同正方向进行加权计算，归一化处理后得到不同正方向标记对应的置信度。

步骤S23，根据置信度，确定图像区域对应的正方向标记。

具体地，选取对应的置信度数值最大的正方向作为图像区域对应的正方向标记。

进一步地，分别确定每个图像区域对应的正方向标记以及对应的置信度数值后，从中选取对应的置信度数值最大的正方向标记作为待识别文字图像的正方向。

为了更加清楚地说明本发明实施例所提出的文字图像的识别方法是如何根据多个图像区域的正方向，确定待识别文字图像的正方向，下面进行举例说明。

如图8所示，文字图像包括5个图像区域，第一图像区域最大可能的正方向为逆时针270度，用数字3标记，对应的置信度为0.687790，第二图像区域最大可能的正方向为逆时针270度，用数字3标记，对应的置信度为0.856162，第三图像区域最大可能的正方向为逆时针270度，用数字3标记，对应的置信度为0.997811，第四图像区域最大可能的正方向为逆时针270度，用数字3标记，对应的置信度为0.950631，第五图像区域最大可能的正方向为逆时针270度，用数字3标记，对应的置信度为0.985696。根据五个图像区域的识别结果，最终确定整个文字图像的正方向为逆时针270度，用数字3标记。

为了实现上述实施例，本发明实施例还提出一种文字图像的识别装置，图9为本发明实施例所提供的一种文字图像的识别装置的结构示意图。如图9所示，该装置包括：第一获取模块310，提取模块320，方向识别模块330，第一确定模块340，文本识别模块350。

第一获取模块310，用于获取待识别文字图像。

提取模块320，用于从待识别文字图像中提取多个图像区域。

方向识别模块330，用于使用训练好的方向识别模型分别对每个图像区域进行方向识别。

第一确定模块340，用于根据多个图像区域的正方向，确定待识别文字图像的正方向。

文本识别模块350，用于根据待识别文字图像的正方向，使用训练好的文本识别模型对待识别文字图像进行文本识别。

进一步地，为了减少文本识别模型训练和识别的计算量，一种可能的实现方式是，该装置还包括：灰度化处理模块360，用于对待识别文字图像进行灰度化处理。

进一步地，为了训练文本识别模型，一种可能的实现方式，该装置还包括：第四获取模块370，用于获取参考文本图像以及对应的参考文本。第二输入模块380，用于将参考文本图像输入两层栈式双向长短期记忆网络。计算模块390，用于使用损失函数计算两层栈式双向长短期记忆网络的输出和参考文本的差值，以训练两层栈式双向长短期记忆网络。

需要说明的是，前述对文字图像的识别方法实施例的解释说明也适用于该实施例的文字图像的识别装置，此处不再赘述。

综上所述，本发明实施例所提供的文字图像的识别装置，获取待识别文字图像，从待识别文字图像中提取多个图像区域。使用训练好的方向识别模型分别对每个图像区域进行方向识别，根据多个图像区域的正方向，确定待识别文字图像的正方向。根据待识别文字图像的正方向，使用训练好的文本识别模型对待识别文字图像进行文本识别。由此，实现了先使用方向识别模型待识别文字图像的正方向，再使用文本识别模型进行文本识别，能够对各种类型的文字图像进行识别，提高了文字图像识别方法的泛化能力。

为了实现上述实施例，本发明实施例还提出另一种文字图像的识别装置，

图10为本发明实施例所提供的另一种文字图像的识别装置的结构示意图。如图10所示，基于图9所示的装置结构，该装置还包括：第二获取模块410，第三获取模块420，剪裁模块430，旋转模块440，修改模块450，第一输入模块460，比较模块470，第二确定模块480。

第二获取模块410，获取参考文字图像。其中，参考文字图像包括多个文本框。

第三获取模块420，分别获取每个文本框对应的正方向标记和位置标记。

剪裁模块430，用于从参考文字图像中随机裁剪出一个正方形区域。其中，正方形区域包括第一数值的文本框作为训练文本框。

旋转模块440，用于对正方形区域进行旋转。

修改模块450，用于分别修改正方形区域中的每个训练文本框对应的正方向标记。

第一输入模块460，用于将正方形区域输入深度神经网络。

比较模块470，用于将深度神经网络的输出和每个训练文本框对应的正方向标记和位置标记进行比较，以优化深度神经网络的参数。

第二确定模块480，用于基于优化后的深度神经网络的参数确定训练好的方向识别模型。

进一步地，为了确定图像区域对应的正方向标记，一种可能的实现方式是，方向识别模块330包括：输入子模块331，用于将图像区域输入训练好的方向识别模型，以生成图像区域中多个文本框对应的正方向标记。计算子模块332，用于根据多个文本框对应的正方向标记，计算图像区域分别对应不同正方向标记时的置信度。确定子模块333，用于根据置信度，确定图像区域对应的正方向标记。

从而，实现了对方向识别模型的训练。

为了实现上述实施例，本发明实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如前述方法实施例的文字图像的识别方法的步骤。

图11为本发明实施例提供的一种计算机设备的示意图。如图11所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的文字图像的识别方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中文字图像的识别装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图11仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

为了实现上述实施例，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如前述方法实施例的文字图像的识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文字图像的识别方法，其特征在于，所述方法包括：

获取待识别文字图像；

从所述待识别文字图像中提取多个图像区域；

使用训练好的方向识别模型分别对每个所述图像区域进行方向识别；

根据所述多个图像区域的正方向，确定所述待识别文字图像的正方向；以及

根据所述待识别文字图像的正方向，使用训练好的文本识别模型对所述待识别文字图像进行文本识别。

2.如权利要求1所述的方法，其特征在于，所述训练好的方向识别模型通过以下步骤训练生成：

获取参考文字图像；其中，所述参考文字图像包括多个文本框；

分别获取每个所述文本框对应的正方向标记和位置标记；

从所述参考文字图像中随机裁剪出一个正方形区域；其中，所述正方形区域包括第一数值的所述文本框作为训练文本框；

对所述正方形区域进行旋转，并分别修改所述正方形区域中的每个所述训练文本框对应的所述正方向标记；

将所述正方形区域输入深度神经网络；

将所述深度神经网络的输出和每个所述训练文本框对应的所述正方向标记和所述位置标记进行比较，以优化所述深度神经网络的参数；

基于优化后的所述深度神经网络的参数确定所述训练好的方向识别模型。

3.如权利要求2所述的方法，其特征在于，所述使用训练好的方向识别模型分别对每个所述图像区域进行方向识别，包括：

将所述图像区域输入所述训练好的方向识别模型，以生成所述图像区域中所述多个文本框对应的所述正方向标记；

根据所述多个文本框对应的所述正方向标记，计算所述图像区域分别对应不同所述正方向标记时的置信度；

根据所述置信度，确定所述图像区域对应的所述正方向标记。

4.如权利要求1所述的方法，其特征在于，在所述根据所述待识别文字图像的正方向，使用训练好的文本识别模型对所述待识别文字图像进行文本识别之前，还包括：

对所述待识别文字图像进行灰度化处理。

5.如权利要求1-4中任一项所述的方法，其特征在于，所述训练好的文本识别模型通过以下步骤训练生成：

获取参考文本图像以及对应的参考文本；

将所述参考文本图像输入两层栈式双向长短期记忆网络；

使用损失函数计算所述两层栈式双向长短期记忆网络的输出和所述参考文本的差值，以训练所述两层栈式双向长短期记忆网络。

6.一种文字图像的识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别文字图像；

提取模块，用于从所述待识别文字图像中提取多个图像区域；

方向识别模块，用于使用训练好的方向识别模型分别对每个所述图像区域进行方向识别；

第一确定模块，用于根据所述多个图像区域的正方向，确定所述待识别文字图像的正方向；以及

文本识别模块，用于根据所述待识别文字图像的正方向，使用训练好的文本识别模型对所述待识别文字图像进行文本识别。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取模块，获取参考文字图像；其中，所述参考文字图像包括多个文本框；

第三获取模块，分别获取每个所述文本框对应的正方向标记和位置标记；

剪裁模块，用于从所述参考文字图像中随机裁剪出一个正方形区域；其中，所述正方形区域包括第一数值的所述文本框作为训练文本框；

旋转模块，用于对所述正方形区域进行旋转；

修改模块，用于分别修改所述正方形区域中的每个所述训练文本框对应的所述正方向标记；

第一输入模块，用于将所述正方形区域输入深度神经网络；

比较模块，用于将所述深度神经网络的输出和每个所述训练文本框对应的所述正方向标记和所述位置标记进行比较，以优化所述深度神经网络的参数；

第二确定模块，用于基于优化后的所述深度神经网络的参数确定所述训练好的方向识别模型。

8.如权利要求7所述的方法，其特征在于，所述方向识别模块包括：

输入子模块，用于将所述图像区域输入所述训练好的方向识别模型，以生成所述图像区域中所述多个文本框对应的所述正方向标记；

计算子模块，用于根据所述多个文本框对应的所述正方向标记，计算所述图像区域分别对应不同所述正方向标记时的置信度；

确定子模块，用于根据所述置信度，确定所述图像区域对应的所述正方向标记。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文字图像的识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文字图像的识别方法的步骤。