CN107784301A

CN107784301A - 用于识别图像中文字区域的方法和装置

Info

Publication number: CN107784301A
Application number: CN201610794963.2A
Authority: CN
Inventors: 陈鑫; 高建忠; 雷成军; 吴冬雪; 杨琳琳; 程涛远
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-09
Anticipated expiration: 2036-08-31
Also published as: CN107784301B; US10803338B2; WO2018040342A1; JP6705912B2; US20190050662A1; JP2019515374A

Abstract

本申请公开了用于识别图像中文字区域的方法和装置。所述方法的一具体实施方式包括：获取待识别的图像中的各个像素点的颜色值和位置信息；基于所述各个像素点的颜色值，对所述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域。该实施方式提高了图像文字识别中文字行顺序识别的准确率。

Description

用于识别图像中文字区域的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及模式识别技术领域，尤其涉及用于识别图像中文字区域的方法和装置。

背景技术

光学字符识别(Optical Character Recognition，OCR)，又称为文字识别是指识别图像中字符的技术。

然而，对于图文混合、排版复杂且风格多样的图像，现有的文字识别技术在识别时往往只能识别出文字行以及文字，但无法判断出文字行与文字行之间的顺序。假设待识别的图片如图1所示，一般的OCR系统会按从上到下、从左到右的顺序来对识别出的文字排序，所以图1中识别出的文字顺序是“标题第一章第三章第二章第四章”，而实际上原图的排版中，“第一章”和“第二章”是连续的，“第三章”和“第四章”是连续的。

因此，现有的文字识别技术存在识别结果中文字行顺序不正确的问题。

发明内容

本申请的目的在于提出一种改进的用于识别图像中文字区域的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种用于识别图像中文字区域的方法，所述方法包括：获取待识别的图像中的各个像素点的颜色值和位置信息；基于所述各个像素点的颜色值，对所述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域。

在一些实施例中，所述位置信息包括横向坐标和纵向坐标；以及所述基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域，包括：针对位于同一行的各个轮廓，将颜色值相同或相似且第一横向间距不大于第一预定阈值的轮廓进行合并，以得到各个文字行集合；针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到所述图像中的各个文字区域。

在一些实施例中，针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到所述图像中的各个文字区域包括：计算纵向相邻的文字行的纵向间距和各自起始横向坐标之间的第二横向间距；将颜色值相同、纵向间距不大于第二预定阈值以及第二横向间距不大于第三预定阈值的文字行合并，以得到所述图像中的各个文字区域。

在一些实施例中，所述方法还包括：确定所述各个轮廓的外接矩形，所述外接矩形的颜色值为对应轮廓的颜色值，所述外接矩形的位置信息为对应轮廓的四边顶点坐标；以及所述基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域，包括：基于所述各个轮廓的外接矩形的颜色值和位置信息，对所述各个外接矩形进行合并，以得到所述图像中的各个文字区域。

在一些实施例中，在基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域之前，所述方法还包括：基于各个轮廓的纵向坐标信息，从所述各个轮廓中删除纵向高度大于第四预定阈值的轮廓。

第二方面，本申请提供了一种用于识别图像中文字的方法，所述方法包括：对所识别出的待识别图像中的各个文字区域分别进行文字识别，得到各个文字识别结果，其中，待识别图像中的各个文字区域是通过如权利要求1-5中任一所述的方法得到的；聚合所得到的各个文字识别结果。

第三方面，本申请提供了一种用于识别图像中文字区域的装置，所述装置包括：获取单元，配置用于获取待识别的图像中的各个像素点的颜色值和位置信息；聚类单元，配置用于基于所述各个像素点的颜色值，对所述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；轮廓确定单元，配置用于针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；文字区域生成单元，配置用于基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域。

在一些实施例中，所述位置信息包括横向坐标和纵向坐标；以及所述文字区域生成单元，包括：文字行生成模块，配置用于针对位于同一行的各个轮廓，将颜色值相同或相似且第一横向间距不大于第一预定阈值的轮廓进行合并，以得到各个文字行集合；文字区域生成模块，配置用于针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到所述图像中的各个文字区域。

在一些实施例中，所述文字区域生成模块包括：计算子模块，配置用于计算纵向相邻的文字行的纵向间距和各自起始横向坐标之间的第二横向间距；合并子模块，配置用于将颜色值相同、纵向间距不大于第二预定阈值以及第二横向间距不大于第三预定阈值的文字行合并，以得到所述图像中的各个文字区域。

在一些实施例中，所述装置还包括：外接矩形确定单元，配置用于确定所述各个轮廓的外接矩形，所述外接矩形的颜色值为对应轮廓的颜色值，所述外接矩形的位置信息为对应轮廓的四边顶点坐标；以及所述文字区域生成单元进一步配置用于：基于所述各个轮廓的外接矩形的颜色值和位置信息，对所述各个外接矩形进行合并，以得到所述图像中的各个文字区域。

在一些实施例中，所述装置还包括：删除单元，配置用于基于各个轮廓的纵向坐标信息，从所述各个轮廓中删除纵向高度大于第四预定阈值的轮廓。

第四方面，本申请提供了一种用于识别图像中文字的装置，所述装置包括：文字区域识别单元，所述文字区域识别单元包括如权利要求7-11中任一所述的用于识别图像中文字区域的装置；文字识别单元，配置用于对对所识别出的待识别图像中的各个文字区域分别进行文字识别，得到各个文字识别结果；聚合单元，配置用于聚合所得到的各个文字识别结果。

第五方面，本申请提供了一种计算机系统，所述计算机系统包括：存储器，配置用于存储可执行指令；一个或多个处理器，配置用于与所述存储器通信以执行可执行指令从而完成以下操作：获取待识别的图像中的各个像素点的颜色值和位置信息；基于所述各个像素点的颜色值，对所述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域。

第六方面，本申请提供了一种计算机系统，所述计算机系统包括：存储器，配置用于存储可执行指令；一个或多个处理器，配置用于与所述存储器通信以执行可执行指令从而完成以下操作：对所识别出的待识别图像中的各个文字区域分别进行文字识别，得到各个文字识别结果，其中，待识别图像中的各个文字区域是通过如权利要求1-5中任一所述的方法得到的；聚合所得到的各个文字识别结果。

本申请提供的用于识别图像中文字区域的方法和装置，通过获取待识别的图像中的各个像素点的颜色值和位置信息，再基于各个像素点的颜色值对像素点进行聚类，接着针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合，最后基于轮廓集合中的各个轮廓的颜色值和位置信息，对各个轮廓进行合并，以得到图像中的各个文字区域，从而有效利用了像素点的颜色值和位置信息来识别文字区域。同时，本发明提供的用于识别图像中文字的方法和装置，通过上述用于识别图像中文字区域的方法和装置可以提前识别出图像中文字区域，之后再对识别出的各个文字区域进行文字识别，并聚合各个文字区域的识别结果，从而可以保证图像文字识别中文字行顺序的正确。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是一幅待识别图像的示意图；

图2是根据本申请的用于识别图像中文字区域的方法的一个实施例的流程图；

图3a-图3c是根据本申请的用于识别图像中文字区域的方法的一个应用场景的示意图；

图4是根据本申请的用于识别图像中文字的方法的一个实施例的流程图；

图5是根据本申请的用于识别图像中文字区域的装置的一个实施例的结构示意图；

图6是根据本申请的用于识别图像中文字的装置的一个实施例的结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图2，其示出了根据本申请的用于识别图像中文字区域的方法的一个实施例的流程200。所述的用于识别图像中文字区域的方法，包括以下步骤：

步骤201，获取待识别的图像中的各个像素点的颜色值和位置信息。

在本实施例中，用于识别图像中文字区域的方法运行于其上的电子设备可以首先获取待识别的图像，其中，待识别的图像可以包括但不限于jpg、bmp、tif、gif、png等格式的图像文件，待识别的图像也可以是截图；然后，可以获取上述待识别图像中的各个像素点的颜色值和位置信息。

在本实施例中，待识别图像中各个像素点的颜色值可以是采用各种颜色表示方法的颜色值，例如，可以是RGB(Red Green Blue，红绿蓝)色彩模式的颜色值，也可以是HSV(Hue-Saturation-Value，色调-饱和度-明度)颜色模型的颜色值，还可以是灰度值。

在本实施例的一些可选的实现方式中，待识别图像中各个像素点的位置信息可以包括像素点的横向坐标和纵向坐标。作为示例，待识别图像中各个像素点的位置信息可以是以待识别图像的左上角坐标为原点的横向坐标和纵向坐标。

步骤202，基于各个像素点的颜色值，对像素点进行聚类。

在本实施例中，上述电子设备可以基于步骤201获取的各个像素点的颜色值，对像素点进行聚类，得到至少两个像素点类别，其中，每个像素点类别中的像素点的颜色值相同或相似。每个像素点类别对应有一聚类后的颜色值。

在本实施例中，对图像内像素点进行聚类的方法可以是各种聚类算法，例如：Kmeans(也叫K均值)算法、K-MEDOIDS算法、CLARANS算法等聚类算法。

需要说明的是，上述各种聚类方法是目前广泛研究和应用的公知技术，在此不再赘述。

步骤203，针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合。

在本实施例中，上述电子设备可以针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合。这里，轮廓包括颜色值和位置信息，轮廓的颜色值为构成该轮廓的像素点类别的颜色值，轮廓的位置信息包括构成轮廓的像素点的位置信息。

在本实施例中，确定连通区域的轮廓的算法可以是各种轮廓识别算法，例如：Snake模型，Sobel算子，Robert算子，Laplacian算子，Prewitt算子，Canny算子等。

需要说明的是，上述各种轮廓识别的方法是目前广泛研究和应用的公知技术，在此不再赘述。

步骤204，基于轮廓集合中的各个轮廓的颜色值和位置信息，对各个轮廓进行合并，以得到图像中的各个文字区域。

在本实施例的一些可选的实现方式中，可以将轮廓集合中颜色值相同或相似、第一横向间距不大于第五预定阈值(例如，两个轮廓的高度之和的四分之一)且纵向间距不大于第六预定阈值(例如，两个轮廓的高度之和的二分之一)的轮廓进行合并，得到各个文字区域集合。

需要说明的是，本申请中所述的两个轮廓间的第一横向间距指的是两个轮廓的位置信息中横向坐标最大值较大的轮廓的位置信息中横向坐标最小值减去横向坐标最大值较小的轮廓的位置信息中横向坐标最大值所得的差；两个轮廓间的纵向间距指的是两个轮廓的位置信息中纵向坐标最大值较大的轮廓的位置信息中纵向坐标最小值减去纵向坐标最大值较小的轮廓的位置信息中纵向坐标最大值所得的差。

在本实施例的一些可选的实现方式中，也可以首先针对位于同一行的各个轮廓，将颜色值相同或相似且第一横向间距不大于第一预定阈值(例如，两个轮廓的高度之和的四分之一)的轮廓进行合并，以得到各个文字行集合；然后，针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到图像中的各个文字区域。这里，可以按照如下方式确定两个轮廓是否属于同一行：如果两个轮廓的位置信息中的纵向坐标最大值的差值小于第七预定阈值(例如，2个像素)且两个轮廓的位置信息中的纵向坐标最小值的差值小于第八预定阈值(例如，2个像素)，则确定两个轮廓属于同一行。

在本实施例的一些可选的实现方式中，针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到图像中的各个文字区域，可以包括如下步骤：首先，计算纵向相邻的文字行的纵向间距和各自起始横向坐标之间的第二横向间距；然后，将颜色值相同、纵向间距不大于第二预定阈值(例如，两个文字行的行高之和的二分之一)以及第二横向间距不大于第三预定阈值(例如，两个文字行的行高之和)的文字行合并，以得到图像中的各个文字区域。基于上述步骤可以将纵向坐标相邻行合并到一起，并同时对首行缩进的情况进行了考虑。

在本实施例的一些可选的实现方式中，针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到图像中的各个文字区域，也可以包括如下步骤：首先，计算纵向相邻的文字行的纵向间距和各自结束横向坐标之间的第三横向间距；然后，将颜色值相同、纵向间距不大于第二预定阈值(例如，两个文字行的行高之和的二分之一)以及第三横向间距不大于第九预定阈值(例如，两个文字行的行高之和的两倍)的文字行合并，以得到图像中的各个文字区域。基于上述步骤可以将纵向坐标相邻行合并到一起，并同时对末行结束的位置未到达行尾的情况进行了考虑。

在本实施例的一些可选的实现方式中，在步骤204之前，还可以包括：基于各个轮廓的纵向坐标信息，从各个轮廓中删除纵向高度大于第四预定阈值(例如，100个像素)的轮廓。由于待识别图像中可能存在背景区域、配图区域以及文字区域，经过此步骤，可以将背景区域和配图区域的轮廓从轮廓集合中去除。

在本实施例的一些可选的实现方式中，在步骤204之前，还可以包括：确定各个轮廓的外接矩形，其中，外接矩形的颜色值为对应轮廓的颜色值，外接矩形的位置信息为对应轮廓的四边顶点坐标。这样，基于轮廓集合中的各个轮廓的颜色值和位置信息，对各个轮廓进行合并，以得到图像中的各个文字区域，就可以包括：基于各个轮廓的外接矩形的颜色值和位置信息，对各个外接矩形进行合并，以得到图像中的各个文字区域。这里，可以采用如下步骤基于各个轮廓的外接矩形的颜色值和位置信息，对各个外接矩形进行合并，以得到图像中的各个文字区域：首先，合并各个轮廓的外接矩形，以形成文字行矩形集合，其中，轮廓的外接矩形的颜色值与轮廓的颜色值相同，文字行矩形的颜色值与合并到该文字行矩形中的各个外接矩形的颜色值相同；然后，合并各个文字行矩形，以形成各个文字区域，其中，文字区域的颜色值与合并到该文字区域中的各个文字行矩形的颜色值相同。

在本实施例的一些可选的实现方式中，可以将各个轮廓的外接矩形中符合以下条件的外接矩形合并成文字行矩形：两个外接矩形的颜色值相同、两个外接矩形间的第一横向间距不大于第十预定阈值(例如，两个外接矩形的高度之和的四分之一)、两个外接矩形的纵向坐标最大值的差值不大于第十一预定阈值(例如，2个像素)且两个外接矩形的纵向坐标最小值的差值不大于第十二预定阈值(例如，2个像素)。

在本实施例的一些可选的实现方式中，可以将各个轮廓外接矩形中符合以下条件的外接矩形合并成文字行矩形：两个外接矩形的颜色值相同、两个外接矩形间的第一横向间距不大于第十三预定阈值(例如，两个外接矩形的高度之和的四分之一)且两个外接矩形的纵向坐标重叠距离大于第十四预定阈值(例如，两个外接矩形的高度之和的四分之一)。

在本实施例的一些可选的实现方式中，可以将各个轮廓外接矩形中符合以下条件的外接矩形合并成文字行矩形：两个外接矩形的颜色值相同、两个外接矩形间的第一横向间距小于第十五预定阈值(例如，两个外接矩形的高度之和的四分之一)、其中一个外接矩形的纵向坐标最小值大于另一个外接矩形的纵向坐标最小值且该外接矩形的纵向坐标最大值小于另一个外接矩形的纵向坐标最大值。

在本实施例的一些可选的实现方式中，可以将外接矩形集合中有交集的两个外接矩形合并成文字行矩形。

在本实施例的一些可选的实现方式中，上述合并各个文字行矩形，以形成各个文字区域，可以包括如下步骤：

首先，为各个文字行矩形生成文字行标识。

然后，对各个文字行矩形，生成与该文字行矩形对应的文字区域，其中，文字区域包括：四个文字区域矩形顶点坐标，颜色值，行高，行间距和文字行标识链表。

接着，对各个文字区域，分别将该文字区域的四个文字区域顶点坐标、颜色值和行高设置为与该文字区域对应的文字行矩形的四个文字行矩形顶点坐标、颜色值和四个文字行矩形顶点坐标中的纵向坐标最大值与纵向坐标最小值的差值，为该文字区域的文字行标识链表添加一个元素，并设置该元素的值为与该文字区域对应的文字行矩形的文字行标识。

而后，执行如下合并步骤：查找上述各个文字区域中符合以下条件组中所有条件的两个文字区域：两个文字区域的颜色值相同，两个文字区域的行高之间的差值不大于第十六预定阈值(例如，2个像素)，两个文字区域之间的竖直距离不大于第十七预定阈值(例如，2个像素)，两个文字区域之间的竖直距离与两个文字区域的行间距之间的差值均不大于第十八预定阈值(例如，2个像素)，两个文字区域之间的第二横向间距不大于第十九预定阈值(例如，两个文字区域的行高之和的两倍)和/或两个文字区域的第三横向间距不大于第二十预定阈值(例如，两个文字行的行高之和的两倍)；将两个文字区域合并成新文字区域，用两个文字区域的最小外接矩形四个顶点坐标设置新文字区域的四个顶点坐标，并根据两个文字区域的行高设置新文字区域的行高(例如，用两个文字区域的行高均值设置新文字区域的行高)，根据两个文字区域的行间距设置新文字区域的行间距(例如，用两个文字区域的行间距均值设置新文字区域的行间距)；用两个文字区域的颜色值设置新文字区域的颜色值，将两个文字区域的文字行标识链表合并，并用合并后的文字行标识链表设置新文字区域的文字行标识链表；将合并后形成的新文字区域和各个文字区域中未进行合并的文字区域形成新的各个文字区域；判断新的各个文字区域中是否存在符合上述条件组中所有条件的两个文字区域；如果不存在，则将新的各个文字区域作为最终的识别结果；如果存在，则将新的各个文字区域作为文字区域继续执行上述合并步骤。

继续参见图3a-3c，图3a-3c是根据本实施例的用于识别图像中文字区域的方法的应用场景的一个示意图。在图3的应用场景中，待识别的图片如图3a所示，整个图片包括四个部分，位于第一行的第一部分是一行文字(如图3a中图标301所示)，位于第二行最左边的是由“文字2”和“文字3”组成的第二部分(如图3a中图标302所示)，位于第二行中间的图片是第三部分(如图3a中图标303所示)，位于第二行最右边的是由“文字4”和“文字5”组成的第四部分(如图3a中图标304所示)。一般的文字识别系统会按从上到下、从左到右的顺序来对识别出的文字排序，所以识别出的文字行顺序会是“文字1文字2文字4文字3文字5”，而实际上原图的排版中，“文字2”和“文字3”是连续的，“文字4”和“文字5”是连续的，因此一般的文字识别系统会将文字行顺序识别错误。针对此类图片的特点，使用本申请所述的用于识别图像中文字区域的方法，先识别出图像中的文字行，如图3b中图标305、306、307、308和309所示的五个文字行，再合并文字行后得到如图3c所示中图标310、311和312所示的三个文字区域。在图3c的基础上可以对图标310、311和312所示的三个文字区域分别进行文字识别，再聚合各个文字区域的识别结果，就可以得到正确顺序的文字识别。

本申请的上述实施例提供的方法通过对待识别图像进行聚类、轮廓识别和生成文字区域，从而提前识别出待识别图像中的文字区域，之后可以单独对不同的文字区域进行文字识别，从而可以保证图像文字识别中文字行顺序的正确。

进一步参考图4，其示出了用于识别图像中文字的方法的一个实施例的流程400。该用于识别图像中文字的方法的流程400，包括以下步骤：

步骤401，对所识别出的待识别图像中的各个文字区域分别进行文字识别，得到各个文字识别结果。

在本实施例中，待识别图像中的各个文字区域可以是通过如图2所示的用于识别图像中文字区域的方法得到的。

在本实施例的一些可选的实现方式中，可以先对待识别图像中的各个文字区域中的各个文字行切分成文字子块，然后再对每个文字子块进行文字识别。对每个文字子块进行识别可以先提取该文字子块中的特征，然后将提取的特征与预先训练好的文字库中的文字特征进行匹配并给出匹配结果。这里的特征，简易的区分可分为两类：一为统计的特征，如文字区域内的黑/白点数比值；而另一类特征为结构的特征，如字的笔划端点、交叉点之数量及位置，或以笔划段为特征等。

需要说明的是，上述对文字区域中的文字进行识别的各种方法是目前广泛研究和应用的公知技术，在此不再赘述。

步骤402，聚合所得到的各个文字识别结果。

在本实施例中，可以对步骤401中得到的各个文字识别结果，按照该文字识别结果所属的文字区域进行聚合，最后得到聚合后的待识别图像的文字识别结果。

继续参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于识别图像中文字区域的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的用于识别图像中文字区域的装置500包括：获取单元501、聚类单元502、轮廓确定单元503和文字区域生成单元504。其中，获取单元501，配置用于获取待识别的图像中的各个像素点的颜色值和位置信息；聚类单元502，配置用于基于上述各个像素点的颜色值，对上述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；轮廓确定单元503，配置用于针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；文字区域生成单元504，配置用于基于上述轮廓集合中的各个轮廓的颜色值和位置信息，对上述各个轮廓进行合并，以得到上述图像中的各个文字区域。

在本实施例中，用于识别图像中文字区域的装置500的获取单元501、聚类单元502、轮廓确定单元503和文字区域生成单元504的具体处理可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述位置信息可以包括横向坐标和纵向坐标；以及上述文字区域生成单元504可以包括：文字行生成模块5041，配置用于针对位于同一行的各个轮廓，将颜色值相同或相似且第一横向间距不大于第一预定阈值的轮廓进行合并，以得到各个文字行集合；文字区域生成模块5042，配置用于针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到上述图像中的各个文字区域。

在本实施例的一些可选的实现方式中，上述文字区域生成模块5042可以包括：计算子模块50421，配置用于计算纵向相邻的文字行的纵向间距和各自起始横向坐标之间的第二横向间距；合并子模块50422，配置用于将颜色值相同、纵向间距不大于第二预定阈值以及第二横向间距不大于第三预定阈值的文字行合并，以得到上述图像中的各个文字区域。

在本实施例的一些可选的实现方式中，用于识别图像中文字区域的装置500还可以包括：外接矩形确定单元505，配置用于确定上述各个轮廓的外接矩形，上述外接矩形的颜色值为对应轮廓的颜色值，上述外接矩形的位置信息为对应轮廓的四边顶点坐标；以及上述文字区域生成单元504进一步配置用于：基于上述各个轮廓的外接矩形的颜色值和位置信息，对上述各个外接矩形进行合并，以得到上述图像中的各个文字区域。

在本实施例的一些可选的实现方式中，用于识别图像中文字区域的装置500还可以包括：删除单元506，配置用于基于各个轮廓的纵向坐标信息，从上述各个轮廓中删除纵向高度大于第四预定阈值的轮廓。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于识别图像中文字的装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例所述的用于识别图像中文字的装置600包括：文字区域识别单元601、文字识别单元602和聚合单元603。其中，文字区域识别单元601，包括如权利要求7-11中任一所述的用于识别图像中文字区域的装置；文字识别单元602，配置用于对对所识别出的待识别图像中的各个文字区域分别进行文字识别，得到各个文字识别结果；聚合单元603，配置用于聚合所得到的各个文字识别结果。

在本实施例中，用于识别图像中文字的装置600的文字区域识别单元601、文字识别单元602和聚合单元603的具体处理可分别参考图4对应实施例中步骤401和步骤402的相关说明，在此不再赘述。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口706。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、聚类单元、轮廓确定单元和文字区域生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待识别图像的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：获取待识别的图像中的各个像素点的颜色值和位置信息；基于上述各个像素点的颜色值，对上述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；基于上述轮廓集合中的各个轮廓的颜色值和位置信息，对上述各个轮廓进行合并，以得到上述图像中的各个文字区域。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于识别图像中文字区域的方法，其特征在于，所述方法包括：

获取待识别的图像中的各个像素点的颜色值和位置信息；

基于所述各个像素点的颜色值，对所述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；

针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；

基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域。

2.根据权利要求1所述的方法，其特征在于，所述位置信息包括横向坐标和纵向坐标；以及

所述基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域，包括：

针对位于同一行的各个轮廓，将颜色值相同或相似且第一横向间距不大于第一预定阈值的轮廓进行合并，以得到各个文字行集合；

针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到所述图像中的各个文字区域。

3.根据权利要求2所述的方法，其特征在于，针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到所述图像中的各个文字区域包括：

计算纵向相邻的文字行的纵向间距和各自起始横向坐标之间的第二横向间距；

将颜色值相同、纵向间距不大于第二预定阈值以及第二横向间距不大于第三预定阈值的文字行合并，以得到所述图像中的各个文字区域。

4.根据权利要求1-3中任一所述的方法，其特征在于，所述方法还包括：

确定所述各个轮廓的外接矩形，所述外接矩形的颜色值为对应轮廓的颜色值，所述外接矩形的位置信息为对应轮廓的四边顶点坐标；以及

基于所述各个轮廓的外接矩形的颜色值和位置信息，对所述各个外接矩形进行合并，以得到所述图像中的各个文字区域。

5.根据权利要求2-4中任一所述的方法，其特征在于，在基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域之前，所述方法还包括：

基于各个轮廓的纵向坐标信息，从所述各个轮廓中删除纵向高度大于第四预定阈值的轮廓。

6.一种用于识别图像中文字的方法，其特征在于，所述方法包括：

对所识别出的待识别图像中的各个文字区域分别进行文字识别，得到各个文字识别结果，其中，待识别图像中的各个文字区域是通过如权利要求1-5中任一所述的方法得到的；

聚合所得到的各个文字识别结果。

7.一种用于识别图像中文字区域的装置，其特征在于，所述装置包括：

获取单元，配置用于获取待识别的图像中的各个像素点的颜色值和位置信息；

聚类单元，配置用于基于所述各个像素点的颜色值，对所述像素点进行聚类，其中每个像素点类别中的像素点的颜色值相同或相似；

轮廓确定单元，配置用于针对聚类处理后的每类像素点，确定由该类像素点中的像素点构成的各个连通区域的轮廓，得到轮廓集合；

文字区域生成单元，配置用于基于所述轮廓集合中的各个轮廓的颜色值和位置信息，对所述各个轮廓进行合并，以得到所述图像中的各个文字区域。

8.根据权利要求7所述的装置，其特征在于，所述位置信息包括横向坐标和纵向坐标；以及

所述文字区域生成单元，包括：

文字行生成模块，配置用于针对位于同一行的各个轮廓，将颜色值相同或相似且第一横向间距不大于第一预定阈值的轮廓进行合并，以得到各个文字行集合；

文字区域生成模块，配置用于针对各个文字行集合，基于各个文字行集合的颜色值、纵向坐标和横向坐标，对各个文字行集合进行合并，以得到所述图像中的各个文字区域。

9.根据权利要求8所述的装置，其特征在于，所述文字区域生成模块包括：

计算子模块，配置用于计算纵向相邻的文字行的纵向间距和各自起始横向坐标之间的第二横向间距；

合并子模块，配置用于将颜色值相同、纵向间距不大于第二预定阈值以及第二横向间距不大于第三预定阈值的文字行合并，以得到所述图像中的各个文字区域。

10.根据权利要求7-9中任一所述的装置，其特征在于，所述装置还包括：

外接矩形确定单元，配置用于确定所述各个轮廓的外接矩形，所述外接矩形的颜色值为对应轮廓的颜色值，所述外接矩形的位置信息为对应轮廓的四边顶点坐标；以及

所述文字区域生成单元进一步配置用于：

11.根据权利要求8-10中任一所述的装置，其特征在于，所述装置还包括：

删除单元，配置用于基于各个轮廓的纵向坐标信息，从所述各个轮廓中删除纵向高度大于第四预定阈值的轮廓。

12.一种用于识别图像中文字的装置，其特征在于，所述装置包括：

文字区域识别单元，所述文字区域识别单元包括如权利要求7-11中任一所述的用于识别图像中文字区域的装置；

文字识别单元，配置用于对对所识别出的待识别图像中的各个文字区域分别进行文字识别，得到各个文字识别结果；

聚合单元，配置用于聚合所得到的各个文字识别结果。

13.一种计算机系统，其特征在于，所述计算机系统包括：

存储器，配置用于存储可执行指令；

一个或多个处理器，配置用于与所述存储器通信以执行可执行指令从而完成以下操作：

获取待识别的图像中的各个像素点的颜色值和位置信息；

14.一种计算机系统，其特征在于，所述计算机系统包括：

存储器，配置用于存储可执行指令；

聚合所得到的各个文字识别结果。