CN102314608A

CN102314608A - 文字图像中行提取的方法和装置

Info

Publication number: CN102314608A
Application number: CN201010223258XA
Authority: CN
Inventors: 万鑫; 刘正珍
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2010-06-30
Filing date: 2010-06-30
Publication date: 2012-01-11

Abstract

本发明公开了一种文字图像中行提取的方法和装置，属于文字处理领域。本发明的方法包括：对文字图像进行像素分布统计，得到对应的水平投影直方图；根据水平投影直方图进行粗切分，得到对应数量的行区域；剔除行区域中的无效文字行；对行区域中其余文字行的主体区域进行定位后，在主体区域外进行连通域分析，提取对应的文字行图像。本发明有效避免行间噪声的影响，解决距离较近和交叠行的切分问题；通用性强，不依赖于语言文字的种类，适用于各种东西方语言文字的行提取。

Description

文字图像中行提取的方法和装置

技术领域

本发明属于文字处理领域，涉及一种行提取的方法和装置，具体涉及一种文字图像中行提取的方法和装置。

背景技术

文字图像的行提取是光学字符识别(OCR，Optical Character Recognition)领域中的关键环节之一，其目的在于将多行文字正确划分成若干行，使得每一行正确完整地包含单行文字，以便进一步进行字符切分和识别，行提取的正确与否将直接影响到字符的识别率。

在现有技术中，通常文字图象进行行提取时采用文字图像自顶向下的像素直方图进行投影，但若文字行间存在较严重的噪声，阈值过小则无法正确将行切分开；对于距离较近的甚至有交叠的行，无法正常切分开。如果将文字图像自底向上的连通域进行分析，则算法比较复杂，对文字的书写规范与质量具有较强的依赖性，通用性不强，且速度慢。

因此，需要提供一种通用的文字图像行的提取方法，快速高效，且能有效避免行间噪声的影响，解决距离较近和交叠行的切分问题，为进一步的字符识别提供准确的图像。

发明内容

本发明目的在于提供一种文字图像中行提取的方法和装置，通过对投影后得到的行区域进行连通域分析，进而提取对应的文字行图像，本方法避免了行间噪声的影响，解决距离较近和交叠行的切分问题，具有很强的通用性。

本发明公开了一种文字图像中行提取的方法，包括如下步骤：

步骤1：对文字图像进行像素分布统计，得到对应的水平投影直方图；

步骤2：根据水平投影直方图进行粗切分，得到对应数量的行区域；

步骤3：剔除行区域中的无效文字行；

步骤4：对行区域中其余文字行的主体区域进行定位后，在主体区域外进行连通域分析，提取对应的文字行图像。

所述步骤1中像素分布统计包括：逐行计算图像的各行像素中前景像素的个数，得到图像前景像素对应的水平投影直方图。

所述图像前景像素为图像中的文字区域。

所述步骤2对水平投影直方图进行粗切分时，根据既定阈值对图像水平投影直方图进行滤波，滤除投影值小于既定阈值的像素行。

所述步骤3中的无效文字行为平均行高小于既定阈值的文字行。

所述步骤4中提取对应的文字行图像时，在距主体区域上下边界小于既定距离范围内进行连通域提取，拼接到主体区域对应的图像中形成文字行图像。

所述对行区域中其余文字行的主体区域进行定位时，将行区域内像素行的水平投影值分别与既定阈值比较，分别至上而下逐像素扫描各行区域，水平投影值大于既定阈值的像素行为该行区域的主体区域的上边界；分别至下而上逐像素扫描各行区域，水平投影值大于既定阈值的像素行为该行区域的主体区域的下边界。

所述既定阈值为不大于水平投影均值的1/5。

所述水平投影均值为行区域中像素行对应的水平投影值分别按照从小到大的顺序进行排序，投影值集合中间区域的投影值的均值。

所述中间区域为行区域中像素行对应的水平投影值分别按照从小到大的顺序进行排序，投影值集合的前1/3～2/3的范围。

所述连通域包括粘连的连通域和孤立连通域，粘连连通域与主体区域的上下边界粘连；孤立连通域在主体区域外，与主体区域的上下边界不粘连，且上边界距主体区域上边界小于既定距离、或者下边界距主体区域下边界小于既定距离。

所述既定距离不大于对应行区域的主体区域高度的1/3。

本发明还公开了一种文字图像中行提取的装置，包括如下模块：

统计模块：对文字图像进行像素分布统计，得到对应的水平投影直方图；

切分模块：根据水平投影直方图进行粗切分，得到对应数量的行区域；

剔除模块：剔除行区域中的无效文字行；

连通域模块：对行区域中其余文字行的主体区域进行定位后，在主体区域外进行连通域分析，提取对应的文字行图像。

本发明一种文字图像行提取的方法和装置，将自上而下的直方图投影方法与自下而上的连通域分析方法相结合，进行粗切分、精定位。有效避免行间噪声的影响，解决距离较近和交叠行的切分问题；通用性强，不依赖于语言文字的种类，适用于各种东西方语言文字的行提取。

附图说明

图1为本发明文字图像中行提取的方法的流程图；

图2为本发明文字图像中行提取的方法实施例中待处理的二值图；

图3为本发明文字图像中行提取的方法图2所对应的水平投影直方图；

图4为本发明文字图像中行提取的方法中得到的有序的投影直方图；

图5为本发明文字图像中行提取的方法对图4进行滤波得到的投影直方图；

图6为本发明文字图像中行提取的方法进行粗切分得到的结果图；

图7为本发明文字图像中行提取的方法在粗切分后行高统计示意图；

图8为本发明文字图像中行提取的方法对有效文字行区域进行定位得到的结果图；

图9为本发明文字图像中行提取的方法中对图8的部分图像进行放大的示意图；

图10为本发明文字图像中行提取的方法中行区域对应的水平投影直方图；

图11为本发明文字图像中行提取的方法的水平投影均值进行统计示意图；

图12为本发明文字图像中行提取的方法中对各文字行的主体区域进行定位的示意图；

图13、14为采用本发明文字图像中行提取的方法提取文字图像中的一行文字行的处理中间过程示意图；

图15为采用水平切分方式得到的一行文字行结果图；

图16为采用本发明文字图像中行提取的方法得到的文字行结果图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

以下结合附图并以英文单词为例，对本发明进行详细说明。

如图1所示，本发明公开的文字图像中行提取的方法，包括以下步骤：

步骤一：对文字图像进行像素分布统计，得到对应的水平投影直方图；

输入待识别的文字图像，对文字图像进行像素分布统计，逐行计算图像的各行像素中前景像素的个数，得到图像前景像素对应的水平投影直方图；

如图2所示，图像中前景像素(文字区域)和背景像素(空白区域)采用不同的颜色进行区分区。本实施例的二值图中。黑色像素表示前景像素，白色像素表示背景像素。在其他实施例中，也可以白色像素表示前景像素、黑色像素表示背景像素；前景像素表示了图像中的文字区域，记录了图像的文本信息。

将该图像在水平方向上进行投影，逐行计算图像的各行像素中前景像素的个数，得到如图3所示的图像水平投影直方图。

步骤二：根据水平投影直方图进行粗切分，得到对应数量的行区域；

通过对步骤一得到的水平投影直方图进行滤波，并根据滤波结果将文字图像切分为对应数量的行区域。在理想情况下，图像中文本行之间的空隙较大或图像没有噪声干扰，则文本行之间的空隙处的水平投影值为0，则可在该水平位置将图像进行切分，切分为对应行区域。

但大多数图像存在文字行交叠的情况，造成图像中像素行的水平投影值均大于0，则根据既定阈值对图像水平投影直方图进行滤波，滤除噪声或是包含了其他文本行内容的像素。既定阈值T0不大于水平投影均值的1/5。

水平投影均值为将水平投影直方图中投影值按从小到大的进行排序，取投影值集合中间区域投影值的均值。根据统计学理论，中间区域的数据能够客观地数据的平均水平，因此将水平投影直方图中投影值按从小到大的顺序后，取得到的投影值集合的中间区域投影值的均值为水平投影均值。

本实施例中，投影值集合中间区域为水平投影直方图中投影值从小到大的进行排序后，投影值集合的前1/3～2/3的范围，将其作为中间区域，并将水平投影均值的1/5作为既定阈值。包括以下步骤：

步骤21：图像水平直方图排序：将水平直方图按照从小到大的顺序进行排序，得到有序的直方图，见图4所示；

步骤22：计算排序后的有序的直方图1/3-2/3区域内的均值；在本实施例中，水平投影均值为229，如图4所示。计算得到既定阈值T0＝229/5＝45.8；

步骤23：水平投影图滤波：将图像中的各行像素的投影值与T0逐行进行比较，滤除各行像素的投影值小于T0的像素行，滤波后的直方图见图5；

根据滤波后的水平投影直方图对文字行进行粗切分：至上而下按横坐标表示的图像高度逐像素对水平投影直方图进行扫描，若横坐标为i的图像高度对应投影值为0，横坐标为(i+1)的图像高度对应投影值大于0，则第(i+1)行为粗切分得到的行区域的起始行；若横坐标为i的图像高度对应投影值为0，横坐标为(i-1)的图像高度对应投影值大于0，则第(i-1)行为行区域的结束行。经过粗切分，得到13块的行区域，相应行区域水平投影直方图如图5所示。图6中显示的是文字图像的粗切分结果，其中以灰色区域表示文字图像的粗切分行区域。

步骤三：剔除行区域中的无效文字行；

无效文字行剔除：剔除行高小于预设值的初始行区域；

经过步骤二处理后，可能切分出一些无效文字行，这类文字行由于行间噪声等因素的影响，行高远小于正常的行高，本步骤中剔除此类无效文字行，包括如下步骤：

步骤31：统计文字行平均行高。在其他实施例中，文字行的平均行高可为步骤二切分得到的行区域高的均值，但为了消除行区域中高度过大或过小的行区域的影响，本实施例中采用如下步骤计算平均行高：

●将步骤二得到行区域的行高求和再进行平均值求取，得到参考行高H0；

●对行高在0.5H0～1.5H0的行区域求取平均值H1作为文字行平均行高。

步骤32：以文字行平均行高H1为参考值，剔除行区域中高度小于行阈值的文字行。本实施例中，行阈值为行区域中文字行平均行高的1/5；如图7所示，文字区域在粗切分后的所得的各行区域的行高值、以及计算得到的参考行高H0与H1。经过本步骤处理，第2、4、13条文字行的高度小于H1/5，则此三条无效文字行为无效文字行，行区域中剩余的文字行减少为13行。

图8中显示的是文字图像的有效文字行区域，其中灰色区域表示剔除无效文字行后剩余的行区域，对应的水平投影直方图见图7所示。

步骤四：对行区域中其余文字行的主体区域进行定位后，在主体区域外进行连通域分析，提取对应的文字行图像。

由于步骤三所得的文字行区域内仍然可能包含有其他行区域的部分字符。如图9、10所示，图9为图8虚线框内区域的放大图像。其中，字符‘p’的最下部分的像素落入了下一块行区域。

为避免误提取其他行区域的文字图像，在本步骤中首先定位各行区域的主体区域，文字行的主体区域为行区域中上下边界紧缩若干像素行后得到的区域，目的在于，完全滤除不属于该行区域的部分，然后提取各行区域对应的主体区域外的像素点组成的连通域，并将连通域拼接到主体区域对应的图像中，作为文字行的提取结果。

对行区域的主体定位时分别对上边界和下边界进行定位：对行区域的上边界定位时，分别至上而下逐像素扫描各行区域，若像素行的水平投影值大于既定阈值Ti，则该像素行为该行区域的主体的上边界；否则继续比较下一像素行的水平投影值与既定阈值Ti。对行区域的下边界定位时，分别至下而上逐像素扫描各行区域，若像素行的水平投影值大于既定阈值Ti，则该像素行为该行区域的主体的下边界，否则继续比较上一像素行水平投影值与Ti。

既定阈值Ti与对应第i个行区域内的水平投影均值成比例，与步骤二的计算方法相同，对各行区域中像素行对应的水平投影值分别按照从小到大的顺序进行排序，取投影值集合中间区域的投影值的均值得到。本实施例中，中间区域为投影值集合的前1/3～2/3的范围，并将水平投影均值的1/5作为既定阈值。各行区域对应的既定阈值Ti统计结果如表1所示。

表1各行区域对应的既定阈值

行区域序号	1	2	3	4	5	6	7	8	9	10	11	12	13
														既定阈值Ti	72	79	79	80	21	72	76	72	79	79	84	77	23

如图11所示，其中阴影部分是用于计算既定阈值的数据。最终的文字行主体区域见图12所示，其中灰色区域表示对应的行区域的主体区域。

得到行区域的主体区域后，便进行文字行提取操作。

在提取某一文字行时：首先从原图像中提取该文字行的主体区域中的全部图像；然后对主体区域外的连通域图像进行提取与拼接，得到文字行图像。

所述的提取与拼接操作，是将主体区域的图像和连通域图像从原始图像中提取并进行拼接，拼接时所提取的图像区域相对位置关系与原图中的相应区域的相对位置关系保持一致。

主体区域外的连通域包括与主体区域相粘连的连通域和孤立连通域。与主体区域相粘连的连通域为与主体区域连通的连通域，孤立连通域为由于字体的原因书写时与主体区域不相连通的连通域。

本实施例中，英文中的字符‘i’、‘j’的上升部存在与主体区域不相连通的像素点组成的孤立连通域，则将主体区域外、孤立连通域上边界距主体区域上边界小于既定距离的孤立连通域提取出来，与提取得到的行图像进行拼接。本实施例中，既定距离为主体区域高度的1/3，将在主体区域外宽高均小于主体区域高度的1/4的连通域判定为孤立连通域，拼接到提取的行图像的主体区域中。

英文字符‘h’、‘b’的上升部存在与主体区域粘连的像素点组成的与主体区域粘连的连通域，则将与主体区域粘连，且距主体区域上边界小于既定距离的连通域提取出来，拼接到提取的行图像的主体区域中。

同理，英文中的字符‘g’、‘j’的下降部存在与主体区域粘连的像素点组成的连通域，则将与主体区域粘连，且距主体区域下边界小于既定距离的连通域提取出来，拼接到提取的行图像的主体区域中。本实施例中，既定距离为主体区域高度的1/3，将在与主体区域粘连，且距主体区域下边界小于主体区域高度的1/3的连通域判定为连通域，拼接到提取的行图像的主体区域中，完成文字行图像提取结果。

以本实施例中第三行的行区域为例，进行文字行图像提取操作说明。

首先从原图像中，提取该文字行的主体区域中的全部图像，得到初步行提取的结果图，如图13所示，字符‘h’、‘t’、‘b’、‘d’、‘i’、‘I’、‘f’上部不完整，字符‘g’、‘p’、‘，’下部不完整。

对主体区域外的孤立连通域图像进行提取并拼接到提取的行图像主体区域。该行区域的主体区域高为34像素，在进行连通域搜索时，搜索的范围设定为距主体区域下边界小于主体区域高度的1/3，即11.3。连通域搜索区域见图14所示，图像中黑色框内的非灰色区域为该文字行的连通域搜索区域。

在行区域的主体区域中进行与主体区域相粘连的连通域的提取时，分别在原图的行区域的主体区域上下边界上以前景点为起始点，向上或向下搜索粘连的连通域，并将搜索到的连通域图像提取出来，添加到对应行区域的主体区域中。如图14所示，经过提取粘连的连通域之后，除字符‘i’上方的小点外，行区域中的其他字符均完整了。

本实施例中，孤立连通域在主体区域上边界外的既定距离的范围内查找，搜索的范围同上，为11.3。在进行孤立连通域的提取时，若连通域延伸到了搜索区域外，则其上边界距主体区域的边界距离大于既定距离，该连通域不是孤立连通域。例如，第三行区域的主体区域上边界的既定距离内包含了第二行字符‘g’下降部的部分笔画，而通过连通域搜索，这部分笔画会延伸到行区域外，该连通域上边界是字符‘g’的上边界，距主体区域的边界距离大于既定距离，因此不是孤立的连通域。在搜索区域内共有两个孤立连通域，分别为字符‘i’上的点和字符‘h’上方的噪声点。这两个点所占像素的长宽分别为：5×5、4×5。连通域高度的参考值设定为主体区域高度的1/4，即8.5，则将这两个点对应的孤立连通域提取，拼接到主体区域对应的图像中形成文字行图像，完成该文字行的提取。

图15为通过直接水平切分方式完整提取第三行时的文字行图像提取结果，可以观察到图像上下都包含了少量的其他文字行的部分文字图像。经过本步骤处理，最终提取出来的文字行图像结果见图16所示，第三行文字行被完整提取，而且不包含其他文字行的文字图像。

剔除模块：剔除行区域中的无效文字行；

本发明提供的文字图像行提取方法和装置，能有效处理行间交叠的文字行的提取问题，解决一般的投影方法无法将交叠行正确拆开的问题。该方法同样适用于东方文字，以及其他类似的西方语言，例如俄文、西欧文字等。

Claims

1.一种文字图像中行提取的方法，其特征在于，包括如下步骤：

步骤3：剔除行区域中的无效文字行；

2.根据权利要求1所述的方法，其特征在于：所述步骤1中像素分布统计包括：逐行计算图像的各行像素中前景像素的个数，得到图像前景像素对应的水平投影直方图。

3.根据权利要求2所述的方法，其特征在于：所述图像前景像素为图像中的文字区域。

4.根据权利要求1所述的方法，其特征在于：所述步骤2对水平投影直方图进行粗切分时，根据既定阈值对图像水平投影直方图进行滤波，滤除投影值小于既定阈值的像素行。

5.根据权利要求4所述的方法，其特征在于：所述步骤3中的无效文字行为平均行高小于既定阈值的文字行。

6.根据权利要求1所述的方法，其特征在于：所述步骤4中提取对应的文字行图像时，在距主体区域上下边界小于既定距离范围内进行连通域提取，拼接到主体区域对应的图像中形成文字行图像。

7.根据权利要求1所述的方法，其特征在于：所述步骤4中对行区域中其余文字行的主体区域进行定位时，将行区域内像素行的水平投影值分别与既定阈值比较，分别至上而下逐像素扫描各行区域，水平投影值大于既定阈值的像素行为该行区域的主体区域的上边界；分别至下而上逐像素扫描各行区域，水平投影值大于既定阈值的像素行为该行区域的主体区域的下边界。

8.根据权利要求5或7所述的方法，其特征在于：所述既定阈值不大于水平投影均值的1/5。

9.根据权利要求8所述的方法，其特征在于：所述水平投影均值为行区域中像素行对应的水平投影值分别按照从小到大的顺序进行排序，投影值集合中间区域的投影值的均值。

10.根据权利要求9所述的方法，其特征在于：所述中间区域为行区域中像素行对应的水平投影值分别按照从小到大的顺序进行排序，投影值集合的前1/3～2/3的范围。

11.根据权利要求6所述的方法，其特征在于：所述连通域包括粘连的连通域和孤立连通域，粘连连通域与主体区域的上下边界粘连；孤立连通域在主体区域外，与主体区域的上下边界不粘连，且上边界距主体区域上边界小于既定距离、或者下边界距主体区域下边界小于既定距离。

12.根据权利要求11所述的方法，其特征在于：所述既定距离不大于对应行区域的主体区域高度的1/3。

13.一种文字图像中行提取的装置，其特征在于，包括如下模块：

剔除模块：剔除行区域中的无效文字行；