CN110321886A

CN110321886A - 一种文字区域识别方法及装置

Info

Publication number: CN110321886A
Application number: CN201810291341.7A
Authority: CN
Inventors: 赵锟; 郝志会
Original assignee: Autonavi Software Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2019-10-11

Abstract

本发明公开了一种文字区域识别方法及装置，涉及图像识别技术领域，能够对自然场景图像中的文字区域自动进行识别和标注。本发明主要的技术方案为：利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；通过在所述文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。本发明用于识别图像中的文字区域。

Description

一种文字区域识别方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种文字区域识别方法及装置。

背景技术

文字作为自然场景图像中的组成部分，往往蕴含着与该场景相关的重要信息。因此，对自然场景图像中的文字进行定位并识别，具有重要的实用价值。相对于识别传统扫描文档(如pdf)中的文字，识别自然场景图像中文字的难度更大，因为自然场景图像中除文字外还有各类背景，背景的复杂性越高，将背景与文字进行分离就越困难。如图1所示，图中的两幅图左侧的为扫描文档图像，而右侧的为自然场景图像，对比可以看出，自然场景图像中的文字在大小、排列、字体、出现方式等都没有统一的标准，并且，随着拍摄角度的不同，文字也会出现不同程度的倾斜、旋转、凸变等变形，同时，由于光照或曝光等因素的影响也会干扰对图像中文字区域的识别。

目前，主要通过人工对自然场景图像中的文字区域进行识别和标注，这种方式效率较低，不适合对大批量自然场景图像进行处理。

发明内容

鉴于上述问题，本发明提出了一种文字区域识别方法及装置，主要目的在于对自然场景图像中的文字区域自动进行识别和标注。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种文字区域识别方法，具体包括：

利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；

通过在所述文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；

对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。

另一方面，本发明提供一种文字区域识别装置，具体包括：

文字特征图像检测单元，用于利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；

文字候选框设置单元，用于通过在所述文字特征图像检测单元检测得到的文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；

第一文字候选框筛选单元，用于对所述文字候选框设置单元设置的文字候选框所框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。

另一方面，本发明提供一种存储介质，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的文字区域识别方法。

另一方面，本发明提供一种处理器，所述处理器用于运行计算机程序，其中，所述计算机程序运行时执行上述的文字区域识别方法。

借由上述技术方案，本发明提供的一种文字区域识别方法及装置，主要是利用经过训练的卷积神经网络对自然场景图像进行检测，得到文字特征图像，并在该文字特征图像的像素点上设置至少一个文字候选框，以使设置在文字特征图像上的所有文字候选框能够框定该文字特征图像的所有图像区域，再利用第一次分类与第一次回归操作检测这些文字候选框所框定的第一特征区域，得到框定有物体的文字候选框。进一步，由于利用卷积神经网络对目标图像进行检测，得到的是目标图像的文字特征图像，所以，所述物体至少包括的文字。由此可见，采用本发明对自然场景图像进行检测，可自动识地别出图像中文字所在的区域，提高了图像中的文字区域识别的处理效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了扫描文档图像与自然场景图像中含有的文字对比图；

图2示出了本发明实施例提出的一种文字区域识别方法的流程图；

图3示出了经过卷积神经网络检测后得到文字特征图像的示意图；

图4示出了文字特征图像中的一种设置文字候选框的示意图；

图5示出了本发明实施例提出的基于卷积神经网络的模型检测图像中的文字区域的检测流程图；

图6示出了本发明实施例提出的另一种文字区域识别方法的流程图；

图7示出了文字特征图像中另一种设置文字候选框的示意图；

图8示出了文字特征图像中第三种设置文字候选框的示意图；

图9示出了在自然场景图像中标注文字候选框的效果示意图；

图10示出了本发明实施例提出的一种文字区域识别装置的组成框图；

图11示出了本发明实施例提出的另一种文字区域识别装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种文字区域识别方法，该方法能够自动识别出自然场景图像中的文字区域。具体步骤如图2所示，该方法包括：

101、利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像。

卷积神经网络(Constitutional Neural Networks,CNN)是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。卷积神经网络最重要的作用在于提取训练类别的特征，在文字检测中所提取的就是文字的特征。也就是说，使用经过训练的卷积神经网络对目标图像进行处理后，能够提取该目标图像中的文字特征，生成目标图像的文字特征图像。如图3所示，图中左侧的图像为目标图像，而右侧的图像是经过卷积神经网络检测后，输出的文字特征图像。在该文字特征图像中，黑色区域表示该区域是背景区域不存在文字，而白色区域则表示该区域中存在文字，即，文字特征图像使用灰度图表示时，可以通过灰度值表示图像中相关区域是否含有文字的概率，比如，越暗就表示该区域中含有文字的概率越低，相反，越亮则表示该区域中含有文字的概率越高。

本发明中的卷积神经网络是预先训练过的，考虑到卷积神经网络的参数，如卷积网络的层数，卷积核等，需要根据具体的训练图像样本以及检测的目标图像的相关参数、检测结果的精度等参数进行设置，所以，本发明中对训练卷积神经网络的具体方式不做限定。

102、通过在所述文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域。

其中，在所述文字特征图像的像素点上设置至少一个文字候选框，包括如下几种实施方式：

第一种，在所述文字特征图像的每个像素点上设置一个文字候选框；

第二种，在所述文字特征图像的每个像素点上设置两个及以上的文字候选框；

第三种，从所述文字特征图像中所有像素点中选择部分像素点，在选择出的每一个像素点上设置一个文字候选框；

第四种，从所述文字特征图像中所有像素点中选择部分像素点，在选择出的每一个像素点上设置两个及以上文字候选框；

其中，选择部分像素点的依据是选择出的像素点设置文字候选框后能够覆盖文字特征图像的所有图像区域。

进一步，在像素点上具体设置文字候选框也可以有多种实现方式，包括：以所选定的像素点为文字候选框的左上顶点来设置文字候选框，当然亦可以所选定的像素点为文字候选框的右上顶点或者左下顶点等来设置文字候选框。

需要说明的，如果图像中的文字大小差别不大时，则优先选用第一种或者第三种方式在图像上设置文字候选框；如果图像中的文字大小差别较大，则优先选用前述第二种或者第三种方式在图像上设置文字候选框。

关于文字候选框的大小，如果在像素点上只设置一个文字候选框，则需要预先设定该文字候选框的长、宽的取值，且一个文字候选框应该能够覆盖一个字的大小。例如，假设图像中的文字所占用的图像区域最小是5*5像素点的面积，那么，文字候选框的长、宽的取值则可以预先设置为5个像素点，或者略大的一点的6个像素点。如果在像素点上设置两个及以上的文字候选框，以确保框定大小不同的文字，此时，需要预先设定的参数包括文字候选框长、宽的初始值，即图像中最小文字所占用的像素面积，还有长、宽的步进值，该步进值是用于对所述长、宽的初始值进行调整的参数。比如，长的步进值是3个像素点，宽的步进值为2个像素点，当由长、宽的初始值所确定的第一个文字候选框的图像区域为5*5像素点的面积时，第二个文字候选框的图像区域就为8*7像素点的面积，第三个文字候选框的图像区域就为11*9像素点的面积，以此类推，直至文字候选框所框定的图像区域覆盖文字特征图像的图像区域为止。这时，文字特征图像中将散布有大量的文字候选框，且每一个文字候选框都会框定一定的图像区域，对此，本发明定义每个文字候选框框定的图像区域为第一特征区域，可以理解的是，第一特征区域中有些有文字，有些没有文字。

103、对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。

本发明步骤102在文字特征图像中设置了的多个文字候选框，步骤103则是对文字候选框进行筛选，目的是删除什么都没有框到的文字候选框，得到框定有物体的文字候选框。其中，该物体至少包括文字可以理解为在文字候选框框定的第一特征区域中存在有完整轮廓的物体，可以是文字、符号，或者是标识图案等。

第一次分类的目的是判断第一特征区域中是否含有物体，去除不含物体的文字候选框，由于本发明利用卷积神经网络对目标图像进行检测，得到的是目标图像的文字特征图像，所以，所述物体至少包括文字，而如前所述，在文字特征图像中，黑色区域表示该区域是背景区域不存在文字，白色区域则表示该区域中存在文字，即，文字特征图像中已通过像素点的像素值对图像中背景区域和物体进行区分，所以，通过对文字候选框框定的第一特征区域中的像素的像素值进行判断，即可得到该区域是否含有物体的判断结果。如图4所示，图中文字候选框A的第一特征区域是背景区域所以文字候选框A没有框定物体，而文字候选框B和C都框定有物体。此外，本发明对第一特征区域中是否含有物体的分类方式也可以利用神经网络通过对图像中的具有物体的特征进行学习，以区分文字候选框中是否含有物体。

在该实施例的一个优选实现方案中，第一次分类操作可以使用卷积神经网络中的全连接层实现。在基本的卷积神经网络中，全连接层的作用是将经过多个卷积层和池化层的图像特征图中的特征进行整合，获取图像特征具有的高层含义，之后用于图像分类。在卷积神经网络中，全连接层将卷积层产生的特征图映射成一个固定长度(一般为输入图像数据集中的图像类别数)的特征向量。这个特征向量包含了输入图像所有特征的组合信息，虽然丢失了图像的位置信息，但是该向量将图像中含有最具有特点的图像特征保留了下来以此完成图像分类任务。

第一次回归是将经过第一次分类后得到的含有物体的文字候选框的大小进行调整，以使得该文字候选框所框定的物体与第一特征区域的面积更加匹配，即物体的轮廓更为完整、清晰。具体的，该回归操作是将文字候选框的坐标，包括根据像素点坐标确定的文字候选框的左上角坐标，以及根据长度和宽度确定的其他顶点的坐标，利用预置的数据拟合函数对该文字候选框的第一特征区域进行优化，其中，数据拟合函数是根据文字在图像中的相关参数预先设置而拟合得到的，具体参数在本发明中不做限定，如图4中的文字候选框B和C所示，B为经过第一次分类后得到的一个文字候选框，而在B中的物体的区域只是B框定的区域中的一小部分，并且其轮廓与文字候选框的边相叠加，如果使用B所框定的第一特征区域进行识别，则其它非物体区域中的背景图像就很可能对识别过程造成影响，而该物体也可能只是物体的一部分形状，导致识别准确率低下的问题，因此，经过第一次回归处理后，如图4中的文字候选框C，其所框定的第一特征区域中物体的轮廓完整，且该物体的显示面积在C的第一特征区域中占有较大的比重，可见由第一次回归后得到的文字候选框中是以完整的物体为主要内容的图像区域，更加有利于对物体的识别操作。

通过上述实施例中的具体实现方式可以看出，本发明是基于卷积神经网络对自然场景图像的处理来实现对图像中的物体进行区域的识别与标注操作。这个过程中无需人工对图像进行处理。本发明通过在文字特征图像中以像素点为单元设置至少一个文字候选框，确保了对文字候选框的设置精度，避免了遗漏图像中的物体，同时，对所有文字候选框执行的第一次分类操作过滤了不含有物体的文字候选框，以及经过第一回归操作使得含有物体的文字候选框能够以其中物体的大小来优化文字候选框的大小尺寸，从而使得文字候选框都框定有对应的物体。

为了进一步详细的阐明上述的文字区域识别方法，特别是在上述的步骤采用卷积神经网络实现时，本发明可以将该文字区域识别通过一个基于卷积神经网络的模型直接对自然场景图像进行检测，即该模型的输入为自然场景图像，而输出则为在该图像中所标记出的文字区域。该模型检测的整体流程如图5所示，图像经过多次的卷积处理后，在得到的文字特征图像上设置文字候选框，在经过两次的分类和回归的处理后，得到的输出结果为针对图像中的每个文字框出对应的文字候选框。基于图5所示的检测流程，本发明提出的一个优选实施例的具体执行步骤如图6所示，包括：

201、利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像。

对应于图5中对输入图像进行的4次卷积处理后得到的结果。图5卷积层仅为示例，不应视为对本发明的限制。

202、通过在文字特征图像的像素点上设置至少一个文字候选框，得到文字候选框框定的第一特征区域。

以上步骤于同上述实施例中的步骤101、102，其具体内容不再赘述。

203、对第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框。

在上一实施例中，说明了第一次分类操作使用卷积神经网络中的全连接层实现。而在本发明实施例中，卷积神经网络是针对于图像中的具体物体的特征进行训练后的深度学习神经网络，其中的第一全连接层具有判断第一特征区域中是否含有物体的功能，而对于第一全连接层中的参数设置，在此不做具体限定。

本步骤中的第一全连接层除了对第一特征区域进行第一次分类操作外，还进一步地将框定有物体的文字候选框进行第一次回归的操作，实现将文字候选框中的物体图像区域进行优化调整。具体调整方式可参考步骤103的内容，此处不再赘述。

204、获取框定了物体的文字候选框在文字特征图像上框定的第二特征区域。

第二特征区域与第一特征区域相比，区别在于，第二特征区域均存在物体，且物体在第二特征区域中占有较大的显示比例。而该第二特征区域的坐标可基于第一特征区域的坐标通过拟合函数计算得到。

205、对第二特征区域进行第二次分类和第二次回归，得到框定了文字的文字候选框。

在第二特征区域所对应的文字候选框中，由于第一次分类的目标只是判断所设置的文字候选框中是否存在有物体，对于物体的位置、数量等都不做限定，因此，经过第一次分类与第一次回归处理后得到的文字候选框中就有可能会出现如图6所示的文字候选框A与文字候选框B的情况，A与B都是以同一个像素点所设置的文字候选框，其中都框定有物体，且A中框定的物体包含在B中，虽然A与B都可以作为文字识别的对象，但对B的识别结果，其中必然会包含有A的识别结果，导致重复识别，出现冗余数据，也降低了识别的效率，并且，对于B中含有的多个物体的情况，其识别的准确率要比对单一物体进行识别的准确率低。为此，本发明实施例中，在得到框定了第二特征区域的文字候选框后，通过对文字候选框进行归一化处理，实现将大小不同的文字候选框的尺寸统一。之后，再利用卷积神经网络中设置的第二全连接层对同一尺寸的文字候选框进行第二次分类和第二次回归处理。

其中，归一化处理可通过卷积神经网络中的归一化层进行处理，其具体的归一化处理过程与现有卷积神经网络中的归一化层相同，因此，不再具体说明该过程。而经过第二次分类和第二次回归处理与第一次分类和第一次回归处理的原理是相同，其不同之处在于第二次分类将对框定的物体是否含有文字加以进一步的区分，具体可通过卷积神经网络对文字特征的学习训练加以实现，进而将没有框定文字的文字候选框过滤掉。

进一步的，通过执行第二次分类操作还可以针对文字得到更多的分类结果，比如，针对文字的大小可以得到不同字号的分类结果，或者针对文字的内容进行分类，如汉字、英文、数字等进行分类，之后再针对不同的分类结果对每个文字候选框进行指定的回归处理，即，不同的分类结果将对应使用不同的拟合函数来执行回归处理。使得每个文字候选框的尺寸都能够框定一个完整的文字，如图7中的文字候选框C所示。

206、过滤目标图像中同一个文字上标记的多个文字候选框。

经过上述步骤的处理后，文字特征图像中的每一个文字上框定有对应的文字候选框，确保在该文字特征图像中不会出现遗漏的文字。但是，仍然会出现如图8中所示的情况，即在同一个文字上有两个或者更多的框定有该文字的文字候选框。在图8中，文字候选框A和B都框定了同一文字，虽然经过第二次回归处理，但是由于设置A与B所对应的像素点不同，因此，其回归处理的结果，即得到的文字候选框对应的特征区域是不同的。此时，本步骤将采用非极大值抑制算法对这些框定了相同文字的文字候选框进行过滤，该算法是一种获取局部最大值的有效方法，该算法应用十分广泛，其主要目的就是在图像检测中为了消除多余的检测框，找到最佳的检测位置。对其具体的实现原理以及过程不再此处赘述。

经过本步骤的处理后，使得文字特征图像中的每一个文字都对应标记有唯一的一个文字候选框。

基于上述本实施例的步骤，通过预先训练好的深度学习神经网络模型对自然场景图像中的文字进行文字区域的识别与标注后，可以将该图像中的所有文字所对应的区域以文字候选框的形式进行标注，以便于候选对应的文字识别操作。其标注的效果如图9所示，图像中的每个文字都具有相应的一个文字候选框，不存在重叠或重复，以及漏选的情况，以本发明所识别标注出的文字区域，再配合对应的文字识别算法就可以逐一地对图像中的文字进行检测与识别处理。整个过程无需人工干预，经过实际测试，本发明能够快速、准确、自动化地识别出自然场景图像中的文字区域，并进一步地识别出该文字区域中的文字。

进一步的，作为对上述图2与图6所示方法的实现，本发明实施例提供了一种文字区域识别装置，能够自动识别出自然场景图像中的文字区域。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图10所示，具体包括：

文字特征图像检测单元31，用于利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；

文字候选框设置单元32，用于通过在所述文字特征图像检测单元31检测得到的文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；

第一文字候选框筛选单元33，用于对所述文字候选框设置单元32设置的文字候选框所框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。

进一步的，如图11所示，所述装置包括：

第二特征区域获取单元34，用于获取所述第一文字候选框筛选单元33框定了物体的文字候选框在所述文字特征图像上框定的第二特征区域；

第二文字候选框筛选单元35，用于对所述第二特征区域获取单元34得到的第二特征区域进行第二次分类和第二次回归，得到框定了文字的文字候选框。

进一步的，如图11所示，所述第一文字候选框筛选单元33包括：

第一文字候选框分类模块331，用于通过预先训练的深度学习神经网络的第一全连接层，对文字候选框框定的第一特征区域进行第一次分类，得到框定了物体的文字候选框；

第一文字候选框回归模块332，用于通过所述第一全连接层对所述第一文字候选框分类模块331输出的文字候选框进行回归，以将每个文字候选框的尺寸调整至能够框定一个物体。

进一步的，如图11所示，所述第二文字候选框筛选单元35包括：

第二文字候选框分类模块351，用于通过预先训练的深度学习神经网络的第二全连接层，对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类，得到框定了文字的文字候选框；

第二文字候选框回归模块352，用于通过所述第二全连接层对所述第二文字候选框分类模块351输出的文字候选框进行回归，以将每个文字候选框的尺寸调整至能够框定一个完整文字。

进一步的，如图11所示，所述装置进一步包括：

文字候选框过滤单元36，用于当所述目标图像中同一个文字上有两个以上所述第二文字候选框筛选单元35得到的框定了文字的文字候选框时，对框定所述文字的文字候选框，利用非极大值抑制算法进行滤除，得到一个框定所述文字的文字候选框。

综上所述，本发明实施例所采用的文字区域识别方法及装置，利用经过训练的卷积神经网络对自然场景图像进行检测，生成文字特征图像，并基于该文字特征图像设置多个用于框定文字的文字候选框，通过过滤这些文字候选框，可以得到该自然场景图像中针对每个文字所框定的一个文字候选框，不会出现漏标或重复标注文字候选框的情况，相对于人工标识的方式，本发明通过自动化地标注图像中的文字区域，不仅提高了对自然场景图像的处理效率，其处理结果的准确性也高于人工处理的结果，能够有效地提升对自然场景图像中文字的识别效率。

进一步的，本发明实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，所述程序运行时控制所述存储介质所在设备执行上述的文字区域识别方法。

另外，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的文字区域识别方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文字区域识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

获取所述框定了物体的文字候选框在所述文字特征图像上框定的第二特征区域；

对所述第二特征区域进行第二次分类和第二次回归，得到框定了文字的文字候选框。

3.根据权利要求1或2所述的方法，其特征在于，对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框具体包括：

通过预先训练的深度学习神经网络的第一全连接层，对文字候选框框定的第一特征区域进行第一次分类，得到框定了物体的文字候选框；

通过所述第一全连接层对框定了物体的文字候选框进行回归，以将每个框定了物体的文字候选框的尺寸调整至能够框定一个物体。

4.根据权利要求3所述的方法，其特征在于，对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类和第二次回归，得到框定了文字的文字候选框包括：

通过预先训练的深度学习神经网络的第二全连接层，对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类，得到框定了文字的文字候选框；

通过所述第二全连接层对框定了文字的文字候选框进行回归，以将每个文字候选框的尺寸调整至能够框定一个完整文字。

5.根据权利要求4所述的方法，其特征在于，若所述目标图像中同一个文字上有两个以上的框定了文字的文字候选框，则所述方法进一步包括：

对框定所述文字的文字候选框，利用非极大值抑制算法进行滤除，得到一个框定所述文字的文字候选框。

6.一种文字区域识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置包括：

第二特征区域获取单元，用于获取所述框定了物体的文字候选框在所述文字特征图像上框定的第二特征区域；

第二文字候选框筛选单元，用于对所述第二特征区域获取单元得到的第二特征区域进行第二次分类和第二次回归，得到框定了文字的文字候选框。

8.根据权利要求6或7所述的装置，其特征在于，所述第一文字候选框筛选单元包括：

第一文字候选框分类模块，用于通过预先训练的深度学习神经网络的第一全连接层，对文字候选框框定的第一特征区域进行第一次分类，得到框定了物体的文字候选框；

第一文字候选框回归模块，用于通过所述第一全连接层对所述第一文字候选框分类模块输出的文字候选框进行回归，以将每个文字候选框的尺寸调整至能够框定一个物体。

9.根据权利要求8所述的装置，其特征在于，所述第二文字候选框筛选单元包括：

第二文字候选框分类模块，用于通过预先训练的深度学习神经网络的第二全连接层，对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类，得到框定了文字的文字候选框；

第二文字候选框回归模块，用于通过所述第二全连接层对所述第二文字候选框分类模块输出的文字候选框进行回归，以将每个文字候选框的尺寸调整至能够框定一个完整文字。

10.根据权利要求9所述的装置，其特征在于，所述装置进一步包括：

文字候选框滤除单元，用于当所述目标图像中同一个文字上有两个以上所述第二文字候选框筛选单元得到的框定了文字的文字候选框时，对框定所述文字的文字候选框，利用非极大值抑制算法进行滤除，得到一个框定所述文字的文字候选框。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时控制所述存储介质所在设备执行权利要求1-5中任意一项所述的文字区域识别方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-5中任意一项所述的文字区域识别方法。