CN110796129A

CN110796129A - 一种文本行区域检测方法及装置

Info

Publication number: CN110796129A
Application number: CN201810880153.8A
Authority: CN
Inventors: 万成涛; 谭泽汉; 陈彦宇; 谭龙田; 马雅奇
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2020-02-14

Abstract

本发明公开了一种文本行区域检测方法及装置，获取待检测的图像，基于卷积神经网络模型获取待检测图像对应的特征图像，根据设定的矩形窗口的大小按设定的滑动步长遍历特征图像，在每个窗口位置确定矩形窗口内图像的类别信息，获取表征字符的像素点的矩形窗口的位置信息，基于循环神经网络模型以及获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域，从而能够将文本行区域作为一个整体检测出来，提高文本行区域的检测效率。

Description

一种文本行区域检测方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种文本行区域检测方法及装置。

背景技术

图像中的文本行检测一直是文本图像处理的研究热点，也是光学字符识别(Optical Character Recognition，OCR)的重要环节之一。由于图像中的文本部分常包含图像的重要信息，因此对图像中的文本行进行检测对于图像分析以及图像信息的获取具有重要作用。

目前，对图像中的文本行区域检测通常是设定可容纳一个字符的矩形框，通过该矩形框对图像中的区域进行检测，当检测到的区域内的字符与周围的颜色对比度比较大时，可确定检测到一个字符，通过这种方式逐个检测单个字符，由于该检测过程中是通过逐个字符的方式进行检测，使得检测过程比较繁琐，时间较长，进而使得检测效率较低。

发明内容

本发明的目的是提供一种文本行区域检测方法及装置，以解决现有技术中逐个检测单个字符，使得检测效率较低的问题。

本发明的目的是通过以下技术方案实现的：

第一方面，本发明提供一种文本行区域检测方法，包括：

获取待检测的图像；

基于卷积神经网络模型获取所述待检测图像对应的特征图像；

根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像，在每个窗口位置确定矩形窗口内图像的类别信息；

其中，所述类别信息用于表征矩形窗口内是否包括表征字符的像素点；

获取包括表征字符的像素点的矩形窗口的位置信息；

可选的，基于循环神经网络模型，以及所述获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域。

所述基于循环神经网络模型，以及所述获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域，包括：

基于循环神经网络模型中的深度长短期记忆网络BLSTM层将第一方向上相同的矩形窗口合并；

其中，所述第一方向为用于表征像素点位置的水平坐标方向或者垂直坐标方向；

基于循环神经网络模型中的全连接层，确定第二方向上相邻的N个矩形窗口，并将N个相邻的矩形窗口合并作为文本行区域，所述第二方向为与所述第一方向垂直的方向，所述N为正整数。

可选的，所述将N个相邻的矩形窗口合并作为文本行区域，包括：

利用文本线构造算法，将所述N个相邻的矩形窗口进行合并，得到文本行区域。

可选的，所述表征字符的像素点的矩形窗口的位置信息，包括：

矩形窗口的垂直坐标信息以及水平坐标信息。

第二方面，本发明提供一种文本行区域检测装置，包括：

获取单元，用于获取待检测的图像，并基于卷积神经网络模型获取待检测图像对应的特征图像；

处理单元，用于根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像，在每个窗口位置确定矩形窗口内图像的类别信息；

获取单元，还用于获取包括表征字符的像素点的矩形窗口的位置信息；

处理单元，还用于基于循环神经网络模型，以及获取单元获取到的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域。

可选的，所述处理单元具体用于按如下方式基于循环神经网络模型，以及获取单元获取到的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域：

可选的，所述处理单元具体用于按如下方式将N个相邻的矩形窗口合并作为文本行区域：

矩形窗口的垂直坐标信息以及水平坐标信息。

第三方面，本发明提供一种文本行区域的检测装置，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行第一方面所述的方法。

附图说明

图1为本申请实施例提供的一种文本行区域检测方法流程图；

图2为本申请实施例提供的一种文本行区域检测方法示意图；

图3为本申请实施例提供的一种文本行区域检测装置的结构框图；

图4为本申请实施例提供的一种文本行区域检测装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通常，图像中的文本信息包含图像的重要信息，检测识别图像中的文本信息对于图像处理领域尤其重要。目前，在对图像中的文本信息进行识别时，通常是采用提取出图像中的单个字符，利用逐一字符的识别方式对图像中的文本信息进行识别，当文本信息的不同字符之间差异较大或者不同字符之间的距离较远时，将文本信息的不同字符作为一个整体检测时相对于单个字符的检测难度较大。

有鉴于此，本申请实施例提供了一种文本行区域检测方法及装置，利用卷积神经网络(Convolution Neural Networks，CNN)算法以及循环神经网络(Recurrent NeuralNetworks，RNN)算法对图像中的文本行区域整体进行检测，提高了文本行区域的检测效率。

需要理解的是，在下文的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

图1所示为本申请实施例提供的一种文本行区域检测方法流程图，图1所示方法的执行主体可以为一种文本行区域的检测装置，参阅图1所示，该方法包括：

S101：获取待检测的图像。

S102：基于卷积神经网络模型获取待检测图像对应的特征图像。

S103：利用设定大小的矩形窗口按照设定的步长遍历特征图像，确定每个窗口位置处矩形窗口内图像的类别信息。

本申请实施例中，该矩形窗口内图像的类别信息用于表征矩形窗口内是否包括表征字符的像素点。

S104：获取包括表征字符的像素点的矩形窗口的位置信息。

S105：基于循环神经网络模型，以及获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域。

本申请实施例中，通过将CNN以及RNN相结合，将图像中的文本行区域作为整体检测出来，相对于现有技术单个检测图像中的字符，提高了检测效率。

以下将具体对上述步骤进行详细说明。

本申请实施例中，可先利用卷积神经网络模型对待检测的图像进行卷积核卷积，得到用于表征图像特征的特征图像。

参阅图2所示，本申请实施例中，可利用VGG16模型中的前5个卷积层进行卷积核卷积，得到W*H*C的特征图像。

其中，W表示宽度，H表示高度，C表示图像通道。

基于该特征图像，检测图像中的文本信息，本申请实施例中，可利用设定大小的矩形窗口来检测特征图像中的文本行区域，在检测过程中，可按照设定的步长遍历该特征图像，在每个窗口位置确定矩形窗口内图像的类别信息。

可以理解的是，该图像的类别信息用于表征矩形窗口内是否包括表征字符的像素点。

本申请实施例中，可定义该设定大小的矩形窗口为：“锚点”，利用该锚点对图像进行扫描。

一种可能的实施方式中，可选择3*3*C的窗口大小的卷积核卷积提取特征，判断每个锚点扫描过的位置内的类别信息以及位置信息。

需要说明的是，设定的窗口大小并不限于此，也可以为5*5*C、7*7*C，本申请实施例对此不作限定。

本申请实施例中，在特征图像的基础上利用3*3的滑动窗口提取特征，可对锚点进行预测，即预测文本行区域。

当确定锚点扫描的特征图像的某一位置处时，锚点发出强烈的感应，可确定该位置属于文本行区域。依次遍历特征图像，将所有的属于文本行区域的锚点所在的矩形窗口的位置进行记录。

利用锚点对特征图像进行扫描时，可采用横向扫描的方式，因此在上述步骤中可得到每一行属于文本行区域的矩形框的窗口，然后可将每一行的所有属于文本行区域的矩形窗口串成一列，输入到循环神经网络算法模型的深度长短期记忆网络(BidirectionalLong Short-term Memory，BLSTM)层中，输出得到W*256的特征图像。

具体的，锚点在扫描图像中时，可自适应的调整所在矩形窗口的高度，本申请实施例中，锚点的宽度可以是固定的，由于检测文本的竖直高度比水平宽度相对容易些，因此，选择调整锚点的高度，以达到检测文本区域的高度的目的。

并且，不同的文本行之间存在行间距，行间距内不存在文本信息(即在行间距范围内扫描不到包括表征字符的像素点)，可以有效限制文本行纵向坐标范围，即确保不同文本行在纵向上不存在交错重合。

可以理解的是，输出图像的大小依据选择的窗口大小的不同而变化。

当得到W*256的特征图像之后，可将该图像输入到维度为512维的FC全连接层进行连接。

在全连接层可将锚点扫描到的所有包括有文本行区域的窗口进行连接，再将连接后的图像输入到分类或回归层进行分类回归。

可以理解的是，本申请实施例中可对预测出的文本行区域进行分类回归，确定出文本行区域的高度以及位置。

一种可能的实施方式中，本申请实施例中可采用如下方式基于循环神经网络模型，以及获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域：

基于循环神经网络模型中的BLSTM层将第一方向上相同的矩形窗口合并，并基于循环神经网络模型中的全连接层，确定第二方向上相邻的N个矩形窗口，将N个相邻的矩形窗口合并作为文本行区域，第二方向为与第一方向垂直的方向。

其中，N为正整数，第一方向为用于表征像素点位置的水平坐标方向或者垂直坐标方向。

具体的，本申请实施例中可设定三个参数来表示回归的文本行区域的边界框，包括：2k scores、2k vertical coordinate以及k side-refinement。

其中，2k scores表示k个锚点是否是字符的类别信息，2k vertical coordinate表示文本行区域的边界框的垂直坐标(边界框的高度)，k side-refinement表示边界框的水平平移量，即横轴坐标。

进一步的，本申请实施例中可利用文本线构造算法，将N个相邻的矩形窗口进行合并，将合并后的区域作为文本行区域。

可以理解的是，文本线即为文本行，文本线构造算法可以为文本聚类算法、决策树等，本申请实施例对此不作限定。

可选的，表征字符的像素点的矩形窗口的位置信息可包括：矩形窗口的垂直坐标信息以及水平坐标信息。

基于与上述一种文本行区域检测方法实施例相同的构思，本发明实施例还提供了一种文本行区域检测装置，参阅图3所示。该装置包括：获取单元101、处理单元102。

其中，获取单元101用于获取待检测的图像，并基于卷积神经网络模型获取待检测图像对应的特征图像。

处理单元102用于根据设定的矩形窗口的大小按设定的滑动步长遍历获取单元获取到的特征图像，在每个窗口位置确定矩形窗口内图像的类别信息。

其中，类别信息用于表征矩形窗口内是否包括表征字符的像素点。

获取单元101还用于：获取包括表征字符的像素点的矩形窗口的位置信息。

处理单元102还用于：基于卷积神经网络模型，以及获取单元101获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域。

进一步的，基于循环神经网络模型，以及获取单元101获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域，包括：

基于循环神经网络模型中的深度长短期记忆网络BLSTM层将第一方向上相同的矩形窗口合并，并基于循环神经网络模型中的全连接层，确定第二方向上相邻的N个矩形窗口，并将N个相邻的矩形窗口合并作为文本行区域，第二方向为与第一方向垂直的方向。

进一步，处理单元102具体用于按如下方式将N个相邻的矩形窗口合并作为文本行区域：

利用文本线构造算法，将N个相邻的矩形窗口进行合并，得到文本行区域。

更进一步的，矩形窗口的位置信息可包括：窗口的垂直坐标信息以及水平坐标信息。

可以理解的是，垂直坐标信息为边界框的高度和中心的纵轴坐标。

可以理解的是，文本行即文本线，本申请实施例中，可将文本线包括的区域理解为文本行区域。

本申请实施例还提供另外一种标签信息的识别装置，如图4所示，该装置包括：

存储器202，用于存储程序指令。

收发机201，用于接收和发送检测文本行区域的指令。

处理器200，用于调用所述存储器中存储的程序指令，根据收发机201接收到的指令按照获得的程序执行本申请实施例所述的任一方法流程。处理器200用于实现图3所示的处理单元(102)所执行的方法。

其中，在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器200代表的一个或多个处理器和存储器202代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，文本不再对其进行进一步描述。总线接口提供接口。

收发机201可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。

处理器200负责管理总线架构和通常的处理，存储器202可以存储处理器200在执行操作时所使用的数据。

处理器200可以是中央处理器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)。

本申请实施例还提供了一种计算机存储介质，用于储存为上述本申请实施例中所述的任一装置所用的计算机程序指令，其包含用于执行上述本申请实施例提供的任一方法的程序。

所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本行区域检测方法，其特征在于，包括：

获取待检测的图像；

获取包括表征字符的像素点的矩形窗口的位置信息；

基于循环神经网络模型，以及所述根据获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域。

2.如权利要求1所述的方法，其特征在于，所述基于循环神经网络模型，以及所述获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域，包括：

3.如权利要求2所述的方法，其特征在于，所述将N个相邻的矩形窗口合并作为文本行区域，包括：

4.如权利要求1或2所述的方法，其特征在于，所述表征字符的像素点的矩形窗口的位置信息，包括：

矩形窗口的垂直坐标信息以及水平坐标信息。

5.一种文本行区域检测装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述处理单元具体用于按如下方式基于循环神经网络模型，以及获取单元获取到的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域：

7.如权利要求6所述的装置，其特征在于，所述处理单元具体用于按如下方式将N个相邻的矩形窗口合并作为文本行区域：

8.如权利要求5或6所述的装置，其特征在于，所述表征字符的像素点的矩形窗口的位置信息，包括：

矩形窗口的垂直坐标信息以及水平坐标信息。

9.一种文本行区域的检测装置，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1～4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1～4中任一项所述的方法。