CN111222589B

CN111222589B - 图像文本识别方法、装置、设备及计算机存储介质

Info

Publication number: CN111222589B
Application number: CN201811425847.9A
Authority: CN
Inventors: 王伟豪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2023-07-18
Anticipated expiration: 2038-11-27
Also published as: CN111222589A

Abstract

本发明公开了一种图像文本识别方法、装置、设备及计算机存储介质。其中，图像文本识别方法包括：利用卷积神经网络提取目标图像的空间特征；利用长短期记忆网络根据空间特征提取目标图像的时序特征；根据空间特征和时序特征，确定目标图像中的至少一个文本区域；识别文本区域中的文本信息。根据本发明实施例，能够快速、准确地识别目标图像中的不规则的图像文本，提高图像文本识别的性能。

Description

图像文本识别方法、装置、设备及计算机存储介质

技术领域

本发明属于图像处理技术领域，尤其涉及一种图像文本识别方法、装置、设备及计算机存储介质。

背景技术

随着图像文本识别技术的应用越来越广泛，人们对图像中文本识别的性能需求不断提升，现有的图像文本的识别方法已经不能满足人们对图像文本识别性能的需求。

目前的图像文本的识别方法包括：模板匹配法、几何特征抽取法和利用卷积神经网络(CNN)提取图片特征的方法，目前的图像文本的识别方法包括：

模板匹配法是通过将输入的文字与给定的各类别标准文字(模板)进行相关匹配，计算输入文字与各模板之间的相似性程度，取相似度最大的类别作为识别结果来进行图像文本的识别。由于这种识别方法利用整个文字进行相似度计算，因此，对文字的缺损、边缘噪声等具有较强的适应能力。但是，在使用这种识别方法时，当被识别文字的类别增加时，模板的数量也随之增加，不但会增加文本识别设备的存储容量，还会降低文本识别的正确率。因此，这种识别方法仅适用于识别固定字型的印刷体文字。

几何特征抽取法是通过抽取文字的一些几何特征，如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等，根据这些几何特征的位置和相互关系进行逻辑组合判断来进行图像文本的识别。这种识别方法由于利用文字的几何特征对应的结构信息进行图像文本的识别，也可以适用于手写体文字等变型较大的文字。

利用CNN提取图片特征的方法，首先采用CNN先对文字库进行训练，设定CNN各参数，然后输入待测试图片，将图片分割成一个个微型区域进行特征识别，并与训练过的文字库进行比对识别字符。该识别方法一般需要较长时间的训练过程且网络层数较深，在按照单个字符逐个进行识别时，其特异性和敏感性依赖于训练情况。

虽然上述的识别方法一般能够识别出标准字符，但会出现准确率不高的问题，例如，如果字符有一定角度倾斜或者字符排列不规整，上述的识别方法往往难以准确识别，可能会出现多识别、漏识别等问题。因此，目前的图像文本的识别方法的应用场景受到很大局限。

发明内容

本发明实施例提供一种在图像文本识别方法、装置、设备及计算机存储介质，首先结合卷积神经网络和LSTM模块识别目标图像中的至少一个文字区域，然后再针对文字区域进行识别，能够快速、准确地识别目标图像中的不规则的图像文本，提高图像文本识别的性能。

一方面，本发明实施例提供一种图像文本识别方法，包括：

利用卷积神经网络提取目标图像的空间特征；

利用长短期记忆网络根据空间特征提取目标图像的时序特征；

根据空间特征和时序特征，确定目标图像中的至少一个文本区域；

识别文本区域中的文本信息。

进一步地，利用卷积神经网络提取目标图像的空间特征包括：

将目标图像分别输入多个具有不同卷积核的三层卷积层，并分别输出与多个三层卷积层对应的多个特征图；

根据多个特征图，确定目标图像的空间特征。

进一步地，根据多个特征图，确定目标图像的空间特征包括：

融合多个特征图，获得具有第一维度顺序的融合特征图；

利用预定尺寸的滑动窗口对融合特征图进行提取，获得空间特征。

进一步地，长短期记忆网络为嵌套长短期记忆网络，利用长短期记忆网络根据空间特征提取目标图像的时序特征包括：

将空间特征输入至嵌套长短期记忆网络，获取嵌套长短期记忆网络中各层长短期记忆网络对应的多个输出数据；

根据多个输出数据，确定目标图像的时序特征。

进一步地，根据多个输出数据，确定目标图像的时序特征包括：

融合多个输出数据，获得具有第二维度顺序的特征数据；

将特征数据转置，获得具有第三维度顺序的时序特征。

进一步地，根据空间特征和时序特征，确定目标图像中的至少一个文本区域包括：

将空间特征和时序特征输入循环神经网络，并输出多个建议窗口；

根据多个建议窗口，确定至少一个文本区域。

进一步地，根据多个建议窗口，确定至少一个文本区域包括：

筛选多个建议窗口，获得多个建议窗口中的至少一个目标窗口；

合并至少一个目标窗口，获得至少一个文本区域。

另一方面，本发明实施例提供了一种图像文本识别装置，装置包括：

第一处理单元，其配置为利用卷积神经网络提取目标图像的空间特征；

第二处理单元，其配置为利用长短期记忆网络根据空间特征提取目标图像的时序特征；

第三处理单元，其配置为根据空间特征和时序特征，确定目标图像中的至少一个文本区域；

文本识别单元，其配置为识别文本区域中的文本信息。

再一方面，本发明实施例提供了一种图像文本识别设备，设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现上述的图像文本识别方法。

再一方面，本发明实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述的图像文本识别方法。

本发明实施例的图像文本识别方法、装置、设备及计算机存储介质，能够首先利用卷积神经网络提取出目标图像的空间特征，然后基于长文本系列的时间特性，将空间特征输入到长短期记忆网路中，得到目标图像的时序特征，最后基于目标图像的空间特征和时序特征得到目标图像中至少一个包含有文本的文本区域，并对文本区域中的文本进行识别，从而获得文本信息。因此，本发明实施例具备结合上下文推理文字的能力，能够准确识别较长序列文本，减少对目标图像中的文本的多识别、漏识别等问题，并且支持一定角度的字符倾斜，提高了识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的图像文本识别方法的流程示意图；

图2是图1中步骤S110的具体方法的流程示意图；

图3是本发明实施例的嵌套长短期记忆网络的一个示例的结构示意图；

图4是对图3所示的示例增加深度后的深度嵌套长短期记忆网络的结构示意图；

图5是图1中步骤S120的具体方法的流程示意图；

图6是图1中步骤S130的具体方法的流程示意图；

图7是本发明实施例的图像文本识别方法的一个示例的流程示意图；

图8是图7中的嵌套LSTM的具体流程示意图；

图9是利用图7所示的图像文本识别方法识别常规自然场景的文本区域的结果示意图；

图10是利用图7所示的图像文本识别方法识别倾斜自然场景的文本区域的结果示意图；

图11是本发明另一个实施例提供的图像文本识别装置的流程示意图；

图12是本发明又一个实施例提供的图像文本识别设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在机器学习领域中，评判一个模型的好坏，需要一些性能指标来度量，其中最常用的是P(准确率)、R(召回率)和F(综合性指标)。其中，准确率P和召回率R是广泛用于信息检索领域的两个度量值，用来评价检索结果的质量。具体地，准确率P是正确结果的数量与结果总数的比率，衡量的是检索系统的查准率。召回率R是指检索出正确的数量和所有的数量的比率，衡量的是检索系统的查全率。

一般情况下，准确率P和召回率R是一对相互矛盾的度量。比如，一副图片里面有六个文字和三个与文字相似的小花，在文本识别过程中，会出现两种可能性：

(1)能够识别出三个区域，每个区域都是对应一个文字，没有识别出对应小花的区域，即识别的三个区域都是准确的，其准确率P很高，但仍然有三个文字无法被识别出来，导致召回率R低；

(2)能检测到六个区域，其中四个区域都是分别对应一个文字的区域，两个区域是分别对应一个小花的区域，此时，召回率R有所提高，但是却将小花误认为是文字而识别出两个对应小花的区域，这就导致准确率P降低。

因此，在模型评价研究中，一般采用准确率P和召回率R的综合性指标F作为主要的评价指标，综合性指标F可以使用准确率P和召回率R转换，即F是P和R的加权调和值，如公式(1)所示。

除此之外，为了考虑到模型的实用性，也可以将时间作为考虑指标。

基于上述指标，可见现有的识别方法虽然能够识别出标准字符，但会出现准确率P不高的问题，并且，如果字符有一定角度倾斜或者字符排列不规整，还可能会出现召回率R不高的问题，导致目前的图像文本的识别方法的应用场景受到很大局限。因此，需要一种能够更准确的识别自然场景中的文字区域及文本信息的图像文本识别方法。

为了解决现有技术问题，本发明实施例提供了一种图像文本识别方法、装置、设备及计算机存储介质。下面首先对本发明实施例所提供的图像文本识别方法进行介绍。

图1示出了本发明一个实施例提供的图像文本识别方法的流程示意图。如图1所示，本发明实施例的图像文本识别方法，包括：

S110、利用卷积神经网络提取目标图像的空间特征；

S120、利用长短期记忆网络根据空间特征提取目标图像的时序特征；

S130、根据空间特征和时序特征，确定目标图像中的至少一个文本区域；

S140、识别文本区域中的文本信息。

在本发明实施例中，能够首先利用卷积神经网络提取出目标图像的空间特征，然后基于长文本系列的时间特性，将空间特征输入到长短期记忆网路中，得到目标图像的时序特征，最后基于目标图像中的文本的空间特征和时序特征得到目标图像中至少一个包含有文本的文本区域，并对文本区域中的文本进行识别，从而获得文本信息。因此，本发明实施例具备结合上下文推理文字的能力，能够识别较长序列文本，并且支持一定角度的字符倾斜，能够提高图像文本识别的准确率P和召回率R，。

在步骤S110中，利用卷积神经网络可以将目标图像初步地划分为多个候选框，因此，目标图像的空间特征可以为多个候选框之间的空间关系的特征。

在对提取目标图像的空间特征所用的卷积神经网络进行模型设计时，为了能够提取目标图像的多层特征(包括高层的抽象特征和底层的详细特征)，并且避免特征图太小，因此，可以将卷积神经网络的模型设计为依次包括多个三层卷积层、一个反卷积层和一个候选框池化层。其中，多个三层卷积层能够分别得到目标图像的多层特征，反卷积层能够避免特征图太小，候选框池化层能够将多层特征融合到一起。

具体地，三层卷积层至少包括并行卷积和交叉卷积两类。并行卷积可以对不同大小的卷积核提取特征，例如，在一个并行卷积类型的三层卷积层中，可以设置5*5和7*7两组卷积核，在此三层卷积层中，可以将5*5和7*7卷积进行并行。由于不同大小的卷积核提取的特征不同，可以进行差异化提取，使融合后的空间特征效果更好。交叉卷积可以将方型卷积核转化为非对称卷积结构，例如，在一个交叉卷积类型的三层卷积层中，可以将5*5的卷积核转化为5*1和1*5的卷积核，以增加对多尺度特征的适应性和模型的非线性表达能力。由于文本可能具有字符不规则或者文本排列不规则的情况，因此，文本区域可能出现矩形或者多边形的区域，因此，可以利用交叉卷积提高特征提取的稳定性。

本发明实施例中的候选框池化层，它的输入为由上述的多个三层卷积层得到的多个特征图，由于多个特征图对应的候选框的尺寸不一，因此，需要通过候选框池化层将多个候选框转化为尺寸固定的候选框，以确定这些尺寸固定的候选框之间的空间关系的特征，即目标图像的空间特征。从而保证输入到LSTM模块的图像尺寸尽可能一致，以提高训练速度。

在训练该卷积神经网络时，首先可以合理划分数据集，将数据集划分为3:7，其中30％是验证集，70％为训练集，数据集均采用标准数据集。然后选择数据集中的训练集，进行加速神经网络训练。在进行神经网络训练时，可以通过输入统一的维度顺序，将不同来源的数据能够统一到一个维度顺序，从而防止某一维的数据对训练效果产生影响，以加快训练速度。

图2示出了图1中步骤S110的具体方法的流程示意图。如图2所示，在本发明实施例中，步骤S110、利用卷积神经网络提取目标图像的空间特征包括：

S111、将目标图像分别输入多个具有不同卷积核的三层卷积层，并分别输出与多个三层卷积层对应的多个特征图；

S112、根据多个特征图，确定目标图像的空间特征。

在本发明实施例中，步骤S111可以利用上述已经训练好的卷积神经网络，分别利用卷积神经网络的各个三层卷积层获得多个特征图。然后在步骤S112中，依次利用卷积神经网络的反卷积层和候选框池化层，根据多个特征图，得到目标图像中的具有固定尺寸的候选框的空间特征。

具体地，步骤S112、根据多个特征图，确定目标图像的空间特征的具体方法可以包括：

利用候选框池化层融合多个特征图，获得具有第一维度顺序的融合特征图；

然后利用预定尺寸的滑动窗口对融合特征图进行提取，获得空间特征。

例如，通过卷积神经网络的候选框池化层对多个特征图融合后，最终获得大小为N×C×H×W(具有第一维度顺序)的融合特征图，其中，N为卷积核个数，C为图像通道数，H为图像的高，W为图像的宽。然后，在融合特征图上利用预定尺寸为核大小3*3的滑动窗口对融合特征图进行提取，既可以得到大小为N×9C×H×W的特征序列，该特征序列就是卷积神经网络提取的目标图像的空间特征。

在本发明实施例中，长短期记忆网络可以为嵌套长短期记忆网络(LSTM)。嵌套LSTM可以包含多层LSTM层，后一层LSTM层依次嵌套于前一层LSTM层中，各层LSTM层均使用标准的LSTM来选择性地进行读取、编写。嵌套LSTM相比于传统的堆栈LSTM，能更有效地建立时间层级。

图3示出了本发明实施例的嵌套长短期记忆网络的一个示例的结构示意图。图4示出了对图3所示的示例增加深度后的深度嵌套长短期记忆网络的结构示意图。

如图3所示，在嵌套LSTM中，记忆单元可分为内部记忆单元和外部记忆单元，内部记忆单元一般嵌套在外部记忆单元内部，通过外部记忆单元可自由控制内部单元的状态，外部记忆单元能够编写信息让内部记忆单元选择记忆与当前时刻输入信息相关的事情。由于有些记忆信息会对当前时刻的预测产生干扰，尤其在长序列文本中，前一时刻的信息回对当前时刻的预测产生了阻碍，导致预测出现偏差，因此，与传统的堆栈LSTM不同的是，对于不相关的信息，在嵌套LSTM中，外部记忆单元可以控制内部记忆单元选择性忘记。由此，嵌套LSTM可以根据上述的原理来创造一种记忆的时间层级。

由于嵌套LSTM由传统的堆栈LSTM改进而来，因此，嵌套LSTM与传统的堆栈LSTM原理类似，是由输入门、输出门和遗忘门来控制记忆单元的记忆状态，其门值范围一般在[0,1]，三个门分别使用sigmoid作为激活函数，并且输出状态使用tanh作为激活函数。

i_t＝σ_i(w_i[h_t-1,x_t]+b_i) (2)

在公式(2)中，i_t表示的是当前时刻的输入，由输入门控制，其通过激活函数sigmoid决定输入信息是否保留，σ_i是激活函数sigmoid，w_i是神经元权值，h_t-1是t-1时刻的隐藏层状态，x_t是当前时刻t的输入，b_i表示输入门的偏置。

f_t＝σ_f(w_t[h_t-1,x_t]+b_f) (3)

在公式(3)中，f_t表示的是遗忘门，可以通过遗忘门控制记忆单元的状态，让记忆单元c_t随机地舍弃一些会干扰当前时刻预测结果的过去状态，σ_f是遗忘门的激活函数sigmoid，b_f是遗忘门的偏置项。

c_t＝IM_t(f_t⊙c_t-1，i_t⊙g_t) (4)

由公式(4)可知，嵌套LSTM用已学习的有限状态函数c_t＝IM_t(f_t⊙c_t-1，i_t⊙g_t)替换传统的堆栈LSTM中的c_t＝f_t*c_t-1+i_t*tanh(w_c·[h_t-1,c_t]+b_c)，该记忆单元c_t的状态表示为m在时间t的内部记忆IM(Iner Memory)，f_t表示遗忘门的输入值，c_t-1表示时刻t-1的记忆细胞的记忆状态，g_t是当前时刻t经过门处理后的输出值。

o_t＝σ_o(w_o[h_t-1，x_t]+b_o)(5)

h_t＝o_t⊙σ_h(c_t) (6)

公式(5)和(6)表示的是输出门，在公式(5)中，o_t是输出函数，具有稳定数值的作用，在公式(6)中，将输出值的初始化值和记忆单元c_t通过相关运算作为当前时刻的隐藏状态h_t，具有稳定数值的作用，σ_o表示输出门经过的激活函数sigmoid，b_o表示输出门的偏置，σ_h表示隐藏层的激活函数tanh。

嵌套LSTM的记忆函数能自由增加模型深度，如图4所示，LSTM层1嵌套LSTM层2，LSTM层2由LSTM层1的记忆单元c_t控制，同样可以用LSTM层3替换LSTM层2的c_t，这样可以将更长久的过去某一时刻的预测信息和隐藏信息保留至当前时刻，对当前时刻的输出起参考作用。同样，当硬件资源充足时，仍可使用另外一个LSTM层代替LSTM层3的c_t，层层相套，逐渐加深，就能嵌套成任意深度的嵌套LSTM。

图5示出了图1中步骤S120的具体方法的流程示意图。如图5所示，在本发明实施例中，步骤S120、利用长短期记忆网络根据空间特征提取目标图像的时序特征包括：

S121、将空间特征输入至嵌套长短期记忆网络，获取嵌套长短期记忆网络中各层长短期记忆网络对应的多个输出数据；

S122、根据多个输出数据，确定目标图像的时序特征。

在使用神经网络的过程中，维度顺序匹配是神经网络中的重点，贯穿整个模型设计过程，合适的维度顺序能够使模型训练稳定，训练速度提高。在本发明实施例中，步骤S110获得的目标图像的空间特征的第一维度顺序与嵌套LSTM的输入门的输入维度顺序不同，因此，需要在将空间特征输入至嵌套LSTM前，首先通过第一转置层将空间特征的维度顺序调整为第二维度顺序，从而将固定大小的输入转化为规定的输出尺寸，以通过第一转置层连接卷积神经网络和嵌套LSTM。

在本发明实施例中，由于将卷积神经网络提取的空间特征输入到嵌套LSTM，以将卷积神经网络和嵌套LSTM结合使用，能够使长序列的文本区域检测更加准确。并且，在本发明实施例中，根据长文本序列具有时间特性，采用了嵌套LSTM获取时序特征，能够将前一时刻的输出预测信息添加到当前时刻的隐藏层状态中，对当前时刻的预测起作用。

具体地，步骤S122、根据多个输出数据，确定目标图像的时序特征的具体方法可以包括：

融合多个输出数据，获得具有第二维度顺序的特征数据；

将特征数据转置，获得具有第三维度顺序的时序特征。

在本发明实施例中，在获取嵌套长短期记忆网络中各层长短期记忆网络对应的多个输出数据之后，可以将多个输出数据输入至融合层，并对多个输出数据进行融合，从而得到具有第二维度顺序的特征数据。

由于第二维度顺序与第一维度顺序不同，为了提高神经网络的训练效率，需要将具有第二维度顺序的特征数据通过第二转置层进行转置，将其转置为具有第三维度顺序的时序特征。其中，第三维度顺序与第一维度顺序相同。此时，既可以保证空间特征和时序特征的维度顺序相同，从而提高处理效率。

图6示出了图1中步骤S130的具体方法的流程示意图。如图6所示，步骤S130、根据空间特征和时序特征，确定目标图像中的至少一个文本区域包括：

S131、将空间特征和时序特征输入循环神经网络，并输出多个建议窗口；

S132、根据多个建议窗口，确定至少一个文本区域。

在步骤S131中，将空间特征和时序特征输入到全连接层，然后通过全连接层中的RPN模块提取建议窗口，RPN模块采用循环神经网络(RNN)实现，并且可以返回两个分支：位置坐标和二分类损失，即前景和背景的二分类损失。

经过全连接将输出分为三部分：二分类损失2k个(前景和背景)，k个边缘修正，2k个anchor中心位置的y和h坐标。

v_h＝log(h/h^a)

其中v＝{v_c,v_h}和是预测坐标和实际坐标，/>和h^a是锚盒的中心(y轴)和高度，可以从目标图像预先计算，c_y和h是目标图像中预测的y轴坐标。然后通过文本框预测会生成一些建议窗口，这些建议窗口的大小比候选框小很多，去掉很多无关信息，以免提取的文字区域受到背景干扰。

然后进行边缘细化修正，它通过位置偏移量可以预测垂直方向的精确位置。公式如下：

其中，x_side是最接近水平边到当前锚点的预测的x坐标，是x轴的实际边缘坐标，它是从实际边界框和锚点位置预先计算的，/>是x轴的锚点的中心，w^a是固定的锚点宽度w^a，具体地可以设置为16。在本发明实施例中，使用边缘提议的偏移量来优化最终的文本行边界框，可以进一步提高了定位精度。

另外，在本发明实施例中，可以采用多任务学习来联合优化模型参数。具体地，可以引入三种损失函数：分别计算的是文本/分文本的二分类损失，坐标损失和边缘细化损失。根据最小损失规则，最小化图像的总体目标函数(L)最小化:

其中，每个锚点都是一个训练样本，i是一个小批量数据中一个锚点的索引。s_i是预测的锚点i作为实际文本的预测概率。k是边缘锚点的索引，其被定义为在实际文本行边界框的左侧或右侧水平距离(例如8个像素)内的一组锚点。o_k和是与第k个锚点关联的x轴的预测和实际偏移量。/>是使用Softmax损失区分文本和非文本的二分类损失。/>和/>是回归损失。N_s,N_v,N_o是标准化参数，表示/>分别使用的锚点总数。

由于提取的建议窗口太多，并不能将全部的建议窗口均分别作为文本区域，因此，需要利用步骤S132进行处理，以根据多个建议窗口，确定至少一个文本区域。

具体地，步骤S132、根据多个建议窗口，确定至少一个文本区域的具体方法包括：

合并至少一个目标窗口，获得至少一个文本区域。

具体地，可以对建议窗口进行评分，可以按照建议窗口与实际背景的IOU交并比计算评分，一般取IOU>0.6可认为建议窗口是候选文字区域。因此，多个建议窗口中，既包含评分高的建议窗口，也包含评分低的建议窗口，按照评分从高到底的顺序排列，然后利用非极大值抑制取得分高的100个建议窗口作为目标窗口，这些目标窗口基本可以覆盖所有出现的文字区域，如果选区过多会导致建议窗口重叠，会增加无用的计算量。

然后，便可以通过文本线构造算法合并目标窗口，其原理是将每两个相近的目标窗口合并为一个目标区域，然后合并不同的目标区域直到无法再合并为止，此时，无法再合并的目标区域即为文本区域。

其中，通过文本线构造算法合并目标窗口的具体方法如下：

首先，我们为目标窗口B_i定义一个配对邻居(B_j,B_i)，当满足目标区域B_j是最接近目标区域B_i的水平距离、该距离小于50像素并且它们的垂直重叠大于0.6时，确定为B_j->B_i。

其次，如果B_j->B_i和B_i->B_j，则将两个目标区域为一对，可以合并为一个目标区域。

最后，顺序连接互为一对的目标区域，从而构建文本区域。

图7示出了本发明实施例的图像文本识别方法的一个示例的流程示意图。如图7所示，首先通过卷积神经网络提取目标图像的空间特征，然后将空间特征输入嵌套LSTM以提取目标图像的时序特征，最后将空间特征和时序特征出入到RPN模块得到文本区域。

其中，卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、反卷积层和候选框池化层。第一卷积层包括并行的卷积核为7*7卷积层A和卷积核为5*5卷积层B、层叠在并行的卷积层后的卷积核为1×1×C的卷积层C和一层池化层；第三卷积模块包括并行的卷积层D、卷积层E、卷积层F和一层池化层，卷积层D包括层叠的卷积核分别为5*1和1*5的卷积层，卷积层E包括卷积核分别为3*1和1*3的卷积层，卷积层F包括卷积核为1*1的卷积层。第二卷积层和第四卷积层参数设置相同，均为三层卷积层和一层池化层，其中每层卷积层的卷积核大小均为3*3，池化层均采用平均池化，使得每池化一次，图像尺寸可以减半。

图8示出了图7中的嵌套LSTM的具体流程示意图。如图8所示，嵌套LSTM包括两层LSTM层，每层LSTM层的维度分别是128，每层都学习每一行的时序特征，输出维度为H×W×N×512，然后将两层的LSTM输出合并成一个输出，生成1024维度的特征数据，最后经过转置层，将输出维度调整为N×1024×H×W，从而得到目标图像的时序特征。

然后，将目标图像的空间特征和时序特征输入到全连接层，将1024维度的输入到4096的全连接层，得到了多个建议窗口，然后根据这些建议窗口确定目标窗口。

为了提高文本的检测准确度，将文本分成一系列细粒度的建议窗口，与传统的建议框不同，细粒度检测的建议窗口尺寸很小，能合理利用像素空间，对小目标文字检测效果好，然后分别预测每个建议窗口，这些建议窗口的宽度都可以设置为8像素(由输入的元素特征尺寸1000*600到Roi尺寸为125*75)，高度则有十种情况的参考值，分别从11像素到273像素变化。

其中，将每个孤立的建议窗口独立考虑并不鲁棒。这可能会导致对与文本模式类似的非文本目标的误检，因此应用嵌套长短期记忆网络来编码用于文本识别的上下文信息。嵌套长短期记忆网络提供了一种自然选择，使用其隐藏层对这些信息进行循环编码，通过门控单元选择性的保留记忆信息。为此，本发明实施例在全连接层中设置了RNN，它将每个建议窗口的卷积特征作为序列输入，并在隐藏层中循环更新其内部状态。结果表明，序列上下文信息极大地促进了对裁剪的单词图像的识别任务。

最后利用文本线构造算法将所有8*h的目标窗口合并成一个完整的文本区域，并可以获得如图9和图10所示的文本区域识别结果，对这些文本区域进行文字识别，既可以获得文本信息。其中，图9示出了利用图7所示的图像文本识别方法识别常规自然场景的文本区域的结果示意图。图10示出了利用图7所示的图像文本识别方法识别倾斜自然场景的文本区域的结果示意图。

综上所述，本发明实施例利用卷积神经网络+嵌套LSTM+RPN模块相结合的方法对目标图像的文本区域进行检测，然后对文本区域进行识别，其检测速度快和检测效果好，并且适用于不规则的图像识别。另外，本发明实施例能够增加对多尺度特征的适应性，尤其是文字形状不规则(可能出现矩形和多边形的区域)。同时，本发明实施例由于将两个LSTM并行及层叠，可同时输出空间特征和时序特征，其运算速度快，并且可将结果直接输出，无需再与卷积神经网络模块连接，运算速度更快。

图11示出了本发明另一个实施例提供的图像文本识别装置的流程示意图。如图11所示，本发明实施例提供的图像文本识别装置包括：

第一处理单元210，其配置为利用卷积神经网络提取目标图像的空间特征；

第二处理单元220，其配置为利用长短期记忆网络根据空间特征提取目标图像的时序特征；

第三处理单元230，其配置为根据空间特征和时序特征，确定目标图像中的至少一个文本区域；

文本识别单元240，其配置为识别文本区域中的文本信息。

在本发明实施例中，第一处理单元210被进一步地配置为将目标图像分别输入多个具有不同卷积核的三层卷积层，并分别输出与多个三层卷积层对应的多个特征图；根据多个特征图，确定目标图像的空间特征。具体地，第一处理单元210根据多个特征图，确定目标图像的空间特征的方法为：融合多个特征图，获得具有第一维度顺序的融合特征图；利用预定尺寸的滑动窗口对融合特征图进行提取，获得空间特征。

在本发明实施例中，第二处理单元220被进一步地配置为将空间特征输入至嵌套长短期记忆网络，获取嵌套长短期记忆网络中各层长短期记忆网络对应的多个输出数据；根据多个输出数据，确定目标图像的时序特征。

具体地，第二处理单元220根据多个输出数据，确定目标图像的时序特征的方法为：融合多个输出数据，获得具有第二维度顺序的特征数据；将特征数据转置，获得具有第三维度顺序的时序特征。

在本发明实施例中，第三处理单元230被进一步地配置为将空间特征和时序特征输入循环神经网络，并输出多个建议窗口；根据多个建议窗口，确定至少一个文本区域

具体地，第三处理单元230根据多个建议窗口，确定至少一个文本区域的具体方法为：筛选多个建议窗口，获得多个建议窗口中的至少一个目标窗口；合并至少一个目标窗口，获得至少一个文本区域。

图11示出了本发明实施例提供的图像文本识别设备的硬件结构示意图。

在图像文本识别设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在综合网关容灾设备的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种图像文本识别方法。

在一个示例中，图像文本识别设备还可包括通信接口303和总线310。其中，如图12所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该图像文本识别设备可以实现上述附图描述的图像文本识别方法和装置。

另外，结合上述实施例中的图像文本识别方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种图像文本识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种图像文本识别方法，其特征在于，包括：

利用卷积神经网络提取目标图像的空间特征；

利用长短期记忆网络根据所述空间特征提取所述目标图像的时序特征；

根据所述空间特征和所述时序特征，确定所述目标图像中的至少一个文本区域；

识别所述文本区域中的文本信息；

利用卷积神经网络提取目标图像的空间特征包括：

将所述目标图像分别输入多个具有不同卷积核的三层卷积层，并分别输出与多个所述三层卷积层对应的多个特征图；

根据所述多个特征图，确定所述目标图像的空间特征；

根据所述多个特征图，确定所述目标图像的空间特征包括：

融合所述多个特征图，获得具有第一维度顺序的融合特征图；

利用预定尺寸的滑动窗口对所述融合特征图进行提取，获得所述空间特征；

所述长短期记忆网络为嵌套长短期记忆网络，利用长短期记忆网络根据所述空间特征提取所述目标图像的时序特征包括：

将所述空间特征输入至所述嵌套长短期记忆网络，获取所述嵌套长短期记忆网络中各层长短期记忆网络对应的多个输出数据；

根据所述多个输出数据，确定所述目标图像的时序特征；

根据所述多个输出数据，确定所述目标图像的时序特征包括：

融合所述多个输出数据，获得具有第二维度顺序的特征数据；

将所述特征数据转置，获得具有第三维度顺序的所述时序特征；

根据所述空间特征和所述时序特征，确定所述目标图像中的至少一个文本区域包括：

将所述空间特征和所述时序特征输入循环神经网络，并输出多个建议窗口；

根据所述多个建议窗口，确定所述至少一个文本区域；

根据所述多个建议窗口，确定所述至少一个文本区域包括：

筛选所述多个建议窗口，获得所述多个建议窗口中的至少一个目标窗口；

合并所述至少一个目标窗口，获得所述至少一个文本区域。

2.一种图像文本识别装置，其特征在于，所述装置包括：

第二处理单元，其配置为利用长短期记忆网络根据所述空间特征提取所述目标图像的时序特征；

第三处理单元，其配置为根据所述空间特征和所述时序特征，确定所述目标图像中的至少一个文本区域；

文本识别单元，其配置为识别所述文本区域中的文本信息；

其中，所述利用卷积神经网络提取目标图像的空间特征包括：

根据所述多个特征图，确定所述目标图像的空间特征；

所述根据所述多个特征图，确定所述目标图像的空间特征包括：

根据所述多个输出数据，确定所述目标图像的时序特征；

所述根据所述多个输出数据，确定所述目标图像的时序特征包括：

所述根据所述空间特征和所述时序特征，确定所述目标图像中的至少一个文本区域包括：

根据所述多个建议窗口，确定所述至少一个文本区域；

所述根据所述多个建议窗口，确定所述至少一个文本区域包括：

合并所述至少一个目标窗口，获得所述至少一个文本区域。

3.一种图像文本识别设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1所述的图像文本识别方法。

4.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1所述的图像文本识别方法。