CN101882215A - 判断文本区域排版方向的方法 - Google Patents

判断文本区域排版方向的方法 Download PDF

Info

Publication number
CN101882215A
CN101882215A CN2009100848626A CN200910084862A CN101882215A CN 101882215 A CN101882215 A CN 101882215A CN 2009100848626 A CN2009100848626 A CN 2009100848626A CN 200910084862 A CN200910084862 A CN 200910084862A CN 101882215 A CN101882215 A CN 101882215A
Authority
CN
China
Prior art keywords
projection
tlv triple
text
post
anomalous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009100848626A
Other languages
English (en)
Other versions
CN101882215B (zh
Inventor
李永彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN2009100848626A priority Critical patent/CN101882215B/zh
Publication of CN101882215A publication Critical patent/CN101882215A/zh
Application granted granted Critical
Publication of CN101882215B publication Critical patent/CN101882215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明提出了一种文本区域排版方向的判断方法,属于OCR领域,根据得到的投影直方图进行统计分析,找出各自最有代表性的特征数据三元组,对于字符行(列)数小于3的文本区域,根据文本区域外接矩形的长宽比判断排版方向;对于字符行(列)数大于等于3的文本区域,根据异常投影柱的数目及其统计位置判断排版方向;无法判断的通过正常投影柱间距的一阶距判断文本排版方向;再无法判断排版方向的通过文本字符的缩进判断排版方向;最后仍然无法判断排版方向的区域放弃判断。本发明能够准确判断正常文本区域是横排还是竖排,而且能够准确判断存在小角度倾斜或轻微几何畸变的文本区域是横排还是竖排,判断效果好,速度快,具有良好的应用价值。

Description

判断文本区域排版方向的方法
技术领域
本发明属于OCR(光学字符识别)技术领域,特别涉及一种判断文本区域排版方向的方法。
背景技术
当前信息的主要存在形式有纸质和电子两大媒介。随着信息技术和计算机技术的发展和普及,纸质媒介在存储成本、记录密度、共享手段、查阅方便性等诸多方面均落后于电子媒介。为了将信息由纸质媒介转换为电子媒介存放,一般方法是将纸质文档(包括纸质图书、杂志、报纸、文件等)先扫描或拍摄成图像,然后对图像进行版面分析,再对分析结果分别处理,例如对图像进行压缩存放、对文本进行OCR识别等。
版面分析是对文档图像内的图像、表格和文本等进行自动分割、识别的过程,其方法分为自顶向下和自底向上两类。自顶向下是指从页面的整体入手,采取多层次纵横投影方法分出各个区域,其优点是简单快速,缺点是对复杂的版面适应性不强,自底向上的方法是指由像素点出发先检测连通域,再把连通域合并成各个区域,其优点是可以处理复杂的版面,缺点是计算量大、合并规则不易确定。随着硬件技术的快速进步,运算量逐渐不再是瓶颈,而对版面分析的准确性要求越来越高,这使得自底向上的版面分析方法逐渐成为主流方法。
在文档图像中,字符是主要的信息载体,版面分析的主要任务之一就是将文档图像中的文本区域分割出来,然后采用OCR(Optical Character Recognition)技术将图像中的字符转换为字符编码存放。在通过连通域标记和合并得到文本区域之后,有一个重要步骤就是判断文本区域中字符的排版方向,即字符是按照水平方向排列即横排还是按照竖直方向排列即竖排,只有知道了文本的横竖排信息,才能决定下一步光学字符识别中是按水平方向切分文本为行还是按竖直方向切分文本为列。
文本区域的排版方向一般采用投影方法来判断,即将文本区域内的二值图像进行水平方向投影和竖直方向投影,分别得到水平投影直方图和竖直投影直方图。文本区域中的字符行(列)对应着直方图中的投影柱,字符行(列)间距对应着直方图中投影柱之间的间距。这样,在字符排版方向上,存在明显的投影柱和投影柱间距,而在非字符排版方向上,投影相互粘连,没有明显的投影柱和投影间距,根据这一特点,可以判断字符排版方向。这种方法简单快速,但是对于存在倾斜或(和)轻微几何畸变(如相机拍摄图像中的几何畸变)的文本区域,其投影直方图就失去了上述的明显特点,判断准确率很差。
发明内容
本发明提出了一种判断文本区域排版方向的方法,根据得到的投影直方图进行统计分析,找出各自最有代表性的特征数据三元组,利用三元组中的正常投影柱数目、异常投影柱数目和统计位置坐标值的大小关系,将它们或它们与文本区域的特征相结合,并利用一阶矩统计特征对文本区域排版方向进行判断。本发明能够准确判断正常文本区域是横排还是竖排,而且能够准确判断存在小角度倾斜或轻微几何畸变的文本区域是横排还是竖排,判断效果好,速度快,具有很好的应用价值。
判断文本区域排版方向的方法,包括如下步骤:
步骤1:统计文本区域外接矩形内包含的字符连通域的高度,将出现频率最高的连通域高度作为字符高。
步骤2:对文本区域内的二值图像进行水平方向和竖直方向的投影,分别得到水平投影直方图和竖直投影直方图。统计直方图中投影柱的分布,在选定的统计位置依次选取正常投影柱数目、异常投影柱数目和统计位置坐标值并筛选为水平投影直方图对应的三元组和竖直投影直方图对应的三元组。
步骤3:如果投影直方图三元组中正常投影柱数目小于既定数目,且对于水平投影直方图来说文本区域的高度小于既定高度,或对于竖直投影直方图来说文本区域的宽度小于既定宽度,则比较文本区域的宽度和高度,宽度大于高度,则排版方向为水平,宽度小于高度,则排版方向为竖直。
步骤4:分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩;如果一方向上直方图的正常投影柱间距的一阶矩小于既定距离,且另一方向上直方图的正常投影柱间距的一阶矩大于既定距离,则排版方向与正常投影柱间距的一阶矩小于既定距离对应的方向一致;否则转到步骤5。
步骤5:根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和文本列,记录左端和顶端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方向。
所述步骤2中,正常投影柱为当前统计位置坐标值处对应的宽度在字符高度0.5~1.5倍间的投影柱。
所述步骤2中,异常投影柱为当前统计位置坐标值处对应的宽度小于字符高度0.5倍或大于字符高度1.5倍的投影柱。
所述步骤2中,统计直方图中投影柱的分布时,在水平投影直方图和竖直投影直方图纵轴上,每隔半个字符高统计正常投影柱和异常投影柱数目,得到<正常投影柱数目,异常投影柱数目,统计位置坐标值>的三元组;然后在所得的正常投影柱最多的三元组中,选择异常投影柱最少的三元组,并在所得结果中选取统计位置坐标值最小的三元组保存,剩余三元组释放。
所述步骤3中,既定数目为3,用来判定当前文本区域是否只有1至2行(列)。
所述步骤3中,既定高度或既定宽度为4倍字符高,用来判定当前文本区域是否只有1至2行(列)。
所述步骤3之后,步骤4之前还可进行步骤31:如果两组所述三元组的异常投影柱数目都为零,则排版方向与两组三元组中对应的统计位置坐标值小的对应方向一致,如果两组三元组中对应的统计位置坐标值相等,则转到步骤4。
如果两组所述三元组中一方向上的异常投影柱数目为零,另一方向上的异常投影柱数目不为零,且异常投影柱数目为零对应的方向上三元组中统计位置坐标值不大于异常投影柱数目不为零的方向上三元组中统计位置坐标值,则排版方向与异常投影柱数目为零对应的方向一致。如果异常投影柱数目为零对应的方向上三元组中统计位置坐标值大于异常投影柱数目不为零对应的方向上三元组中统计位置坐标值,则转到步骤4。
如果两组所述三元组中的异常投影柱数目都不为零,则如果一方向上三元组中统计位置坐标值较小,且该方向上三元组的异常投影柱数目较小,则排版方向与该方向一致;否则,转到步骤4。
所述步骤4中,既定距离为字符高的0.5~2倍,用来衡量正常投影柱间距的波动情况。
所述步骤5中,如果存在行缩进且无列缩进,则排版方向为水平方向;如果存在列缩进且无行缩进,则排版方向为竖直方向,否则无法判断文本区域的排版方向。
本发明判断文本区域排版方向的方法,与现有技术相比,其优点在于:
1、本方法综合利用了文本长宽比、投影直方图特征、字符缩进等信息,不但能够正确判断正常文本区域的排版方向,而且能够准确判断存在小角度倾斜或轻微几何畸变的文本区域的排版方向。
2、本方法的直方图中投影柱分布情况的统计及三元组的选择方法,将投影数据进行细致的统计,有效地对文本区域进行了描述,反应了文本的行列分布情况,进而进行文本区域排版方向的判断。
3、本方法的正常投影柱间距的一阶距对应于文本行(列)间距的一阶距,反映了文本行(列)间距的波动情况,统计方式简捷快速,能够据此快速准确的进行文本区域排版方向的判断。
附图说明
图1为本发明判断文本区域排版方向的方法的流程图;
图2为本发明实施例1的文本区域的二值图像;
图3a为本发明实施例1文本区域二值图像的水平投影直方图;
图3b为本发明实施例1文本区域二值图像的竖直投影直方图;
图4a为本发明实施例1中的水平投影直方图的投影柱分布情况的所有统计位置示意图;
图4b为本发明实施例1中的竖直投影直方图的投影柱分布情况的所有统计位置示意图;
图5a为本发明实施例1中的水平投影直方图的三元组中统计位置示意图;
图5b为本发明实施例1中的竖直投影直方图的三元组中统计位置示意图;
图6为本发明实施例2的文本区域的二值图像;
图7a为本发明实施例2文本区域二值图像的水平投影直方图;
图7b为本发明实施例2文本区域二值图像的竖直投影直方图;
图8a为本发明实施例2中的水平投影直方图的投影柱分布情况的所有统计位置示意图;
图8b为本发明实施例2中的竖直投影直方图的投影柱分布情况的所有统计位置示意图;
图9a为本发明实施例2中的水平投影直方图的三元组中统计位置示意图;
图9b为本发明实施例2中的竖直投影直方图的三元组中统计位置示意图;
图10为本发明横排文本的行缩进示意图;
图11为本发明竖排文本的列缩进示意图;
图12a为本发明实施例2中的水平缩进示意图;
图12b为本发明实施例2中的竖直缩进示意图。
具体实施方式
为了能更清楚地理解本发明的技术内容,采用以下实施例进行详细说明。
在实施之前,将文档图像,无论是彩色的还是灰度图像,首先进行二值化转换成二值图像,利用连通域标记算法得到图像中的连通域,并去掉图像表格等大块的连通域,对于剩余的连通域,通过邻近连通域合并,得到一个个的区域,这些区域称之为文本区域,每个文本区域用一个外接矩形表示其大小。本方法对这些由连通域构成的文本区域进行文字排版方向的判断。
如图2所示的实施例图像,其处理过程包括如下步骤,如图1所示:
步骤10:计算文本区域字符高。计算文本区域包含的所有连通域的高度,统计各高度值的出现频率,对这些频率值进行1×5的均值滤波,然后选取滤波结果中频率最大者对应的高度值为文本区域的字符高。针对图2所示的文本区域,其字符高为30个像素。
步骤20:计算文本区域内二值图像的投影直方图。对文本区域对应的二值图像的每一行像素计算黑像素点数目,然后从上到下排列每一行黑像素点数目,形成水平投影直方图,如图3a所示。对文本区域对应的二值图像的每一列像素计算黑像素点数目,然后从左到右排列每一列黑像素点数目,形成竖直投影直方图,如图3b所示。
统计直方图中投影柱的分布。投影直方图的横坐标轴对应于文本区域的高(宽)度,纵坐标对应于像素行(列)中黑像素的数目,即投影值。在字符排版方向上,文本区域中的字符行(列)对应着直方图中宽度在字符0.5~1.5倍间的投影柱,即正常投影柱。字符行(列)间距对应着正常投影柱之间的间距。在非排版方向上,文本区域中的字符由于随机排列导致得到的投影柱的宽度有大有小,其中,宽度小于字符0.5倍或大于字符1.5倍的投影柱为异常投影柱。通过统计两个直方图中的正常投影柱和异常投影柱的情况,来作为判断字符排版方向的依据。
在投影直方图中,由于投影柱对应于文本区域的文字行(列),正常投影柱数目最多、异常投影柱数目最少的位置处的投影柱分布情况,最近似的反映了文本区域中的行(列)分布情况。由于图像的小角度倾斜或(和)轻微几何畸变,这样的位置在投影直方图中是不固定的。
为了找到最好的投影柱分布信息,采取如下统计方法,采用的既定距离为字符高的0.5倍。沿着投影直方图纵轴,每隔一定的既定距离,统计一次正常投影柱和异常投影柱的数目,直至投影值的最大值处停止。在每个统计位置处,按照<正常投影柱数目,异常投影柱数目,统计位置坐标值>的格式形成一三元组,则在两个投影直方图上各得到若干三元组,如图4a所示为水平投影直方图中的投影柱分布情况的各个统计位置,如图4b所示为竖直投影直方图中的投影柱分布情况的各个统计位置。在两个投影直方图中各得到若干三元组后,首先分别选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元组中再分别选择异常投影柱最少的三元组,最后在得到的结果中再分别选取统计位置坐标值最小的三元组保存,选择完成后,剩余三元组数据丢弃不用,释放占用的存储空间。正常投影柱对应于文本区域的文字行(列),正常投影柱数目最大的位置的直方图分布最好的描述了文本区域的文字行(列)分布。异常投影柱反映了该方向不是排版方向的可能性,异常投影柱数目越多,表明该方向越不可能是文字的排版方向。统计位置坐标值的大小反映了以上两个统计值的可靠性,统计位置坐标值越小,说明以上两个统计值的可靠性越高。
本实施例中,文本区域的字符高为30pixel,所以宽度在15~45pixel之间的投影柱为正常投影柱,宽度小于15pixel或者大于45pixel的为异常投影柱。如图4a所示,在水平投影直方图中,最大投影值为578pixel,每隔15pixel统计一组投影柱数目,则共得到39组三元组数据。首先选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元组中再选择异常投影柱最少的三元组,最后在得到的结果中再选取统计位置坐标值最小的三元组保存。如图5a所示,得到的是第12组三元组,在这组数据中,正常投影柱数目为8,异常投影柱数目为0,统计位置坐标值为165pixel,则三元组为<8,0,165>。如图4b所示,在竖直投影直方图中,最大投影值为155pixel,每隔15pixel统计一组投影柱数目,则共得到11组三元组数据。首先选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元组中再选择异常投影柱最少的三元组,最后在得到的结果中再选取统计位置坐标值最小的三元组保存。如图5b所示,得到的是第5组三元组,在这组数据中,正常投影柱数目为22,异常投影柱数目为77,统计位置坐标值为60pixel,为<22,77,60>。在后续的步骤中,会利用这些数据作为文本排版方向的判断依据。
步骤30:当文本区域字符行(列)数目小于既定数目3时,利用文本区域长宽比判断排版方向。正常投影柱数目对应于文本行(列),如果水平投影直方图中的正常投影柱数目小于既定数目3,并且文本区域高度小于既定高度字符高的4倍,或者竖直投影直方图中的正常投影柱数目小于既定数目3,并且文本区域宽度小于既定宽度字符高度的4倍,则认为文本区域字符的行(列)数小于3。所述既定数目用来判定当前文本区域是否只有1至2行(列)。
如果只采用正常投影柱数目,在非排版方向上,也可能随机出现正常投影柱,所以,此处在对正常投影柱数目做了规定之后,进一步增加了对于文本区域宽度(高度)的要求,既定宽度(既定高度)为4倍字符高度,考虑到行(列)间距的存在,则文本区域中最多只有3行(列)文字,再结合正常投影柱的限制,则可能断定文本区域中的行(列)数目小于3。
在文本区域字符的行(列)数小于3的情况下,排版方向判断规则如下:
1)文本区域宽度大于高度,则判断排版方向为水平;
2)文本区域高度大于宽度,则判断排版方向为竖直;
否则,无法判断该文本区域的排版方向。
本实施例中,水平投影直方图和竖直投影直方图的三元组中正常投影柱的数目为8和22,都大于3,所以跳过该步,直接进入下一步骤31。
步骤31:利用三元组中异常投影柱数目及统计位置坐标值判断排版方向。判断规则如下:
1)在水平投影直方图、竖直投影直方图中的异常投影柱数目都为零时,则排版方向与两组水平投影直方图和竖直投影直方图的三元组中对应的统计位置坐标值小的对应方向一致;如果两组三元组中对应的统计位置坐标值相等,则转到步骤40。
2)在水平投影直方图的三元组中异常投影柱数目为零、竖直投影直方图的三元组中异常投影柱数目非零时,异常投影柱越多表明该方向为排版方向的可能性越小,排版方向倾向于水平方向;进一步判定如果水平投影直方图的三元组的统计位置坐标值小于等于竖直投影直方图的三元组的统计位置坐标值,说明水平投影直方图中的异常投影柱数目的可靠性不低于竖直投影直方图中的异常投影柱数目,则确定排版方向标记为水平方向;否则转步骤40。
3)在竖直投影直方图的三元组中异常投影柱数目为零、水平投影直方图的三元组中异常投影柱数目非零时,异常投影柱越多表明该方向为排版方向的可能性越小,排版方向倾向于竖直方向;进一步判定如果竖直投影直方图的三元组的统计位置坐标值小于等于水平投影直方图的三元组的统计位置坐标值,说明竖直投影直方图中的异常投影柱数目的可靠性不低于水平投影直方图中的异常投影柱数目,则确定排版方向标记为竖直方向;否则转步骤40。
4)在水平投影直方图和竖直投影直方图的三元组中异常投影柱数目都非零时,如果水平投影直方图的三元组中统计位置坐标值小于竖直投影直方图的三元组中统计位置坐标值,说明水平投影直方图中的异常投影柱数目的可靠性优于竖直投影直方图中的异常投影柱数目,进一步判定如果水平投影直方图的三元组中异常投影柱数目小于竖直投影直方图的三元组中异常投影柱数目,则标记为水平方向。如果竖直投影直方图的三元组中统计位置坐标值小于水平投影直方图的三元组中统计位置坐标值,说明水平投影直方图中的异常投影柱数目的可靠性优于竖直投影直方图中的异常投影柱数目,进一步判定如果竖直投影直方图的三元组中异常投影柱数目小于水平投影直方图的三元组中异常投影柱数目,则标记为竖直方向。否则,转步骤40。
在本实施例中,水平投影直方图的三元组中异常投影柱数目为零,竖直投影直方图的三元组中异常投影柱数目为77,大于零,说明水平投影直方图的投影柱分布更接近文本区域的行列分布。另外,水平投影直方图的三元组中统计位置坐标值为165pixel,不小于竖直投影直方图的三元组中统计位置坐标值60,说明竖直投影直方图的投影柱分布更接近文本区域的行列分布。以上两个结论相互矛盾,无法据此判断文本排版方向,所以转步骤40。
步骤40:分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩,利用三元组中各正常投影柱间距的一阶距判断排版方向。在文本区域的字符排版方向上,正常投影柱有序排列,其间距大小基本一致,所以正常投影柱间距的一阶距很小,理想情况下为0。在文本区域的非字符排版方向上,如果正常投影柱随机出现,正常投影柱间距也是随机值,所以非字符排版方向上正常投影柱间距的一阶距较大。当正常投影柱数目小于3时,正常投影柱间距的一阶距不存在,此时将间距赋值为字符高。
分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩,根据正常投影柱间距的一阶距来判断排版方向的规则如下:
1)如果水平投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距小于既定距离字符高的0.5倍,既定距离用来衡量正常投影柱间距的波动情况,表示文字行的分布比较均匀,该方向为排版方向的可能性较大,进一步如果竖直投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距大于既定距离字符高的0.5倍,表示文字列的分布不均匀,即文字列分布随机,该方向为排版方向的可能性较小,综上则排版方向判断为水平方向;
2)如果竖直投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距小于既定距离字符高的0.5倍,表示文字列的分布均匀,该方向为排版方向的可能性较大,进一步如果水平投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距大于既定距离字符高的0.5倍,表示文字行的分布不均匀,即文字行分布随机,该方向为排版方向的可能性较小,综上则排版方向判断为竖直方向;否则,转步骤50。
3)在本实施例中,水平投影直方图的三元组中统计位置坐标值处共有8个正常投影柱,统计其间距的一阶距为3,小于既定距离字符高的0.5倍15pixel。竖直投影直方图中共有22个正常投影柱,统计其间距的一阶距为31,大于既定距离字符高的0.5倍,这说明水平投影方向和竖直投影方向两个方向相比,行间距波动情况较小,小于既定距离0.5个字符高,则水平投影直方图更能反映文本区域的行列分布情况。根据情况1)所述,判断本实施例的字符排版方向为水平方向。
至此,本实施例的字符排版方向判断完成,步骤70不需要进行。
如图6所示的第二个实施例图像,其处理过程包括如下步骤:
步骤10:计算文本区域字符高。计算文本区域包含的所有连通域的高度,统计各高度值的出现频率,对这些频率值进行1×5的均值滤波,然后选取滤波结果中频率最大者对应的高度值为文本区域的字符高。针对图6所示的文本区域,其字符高为34pixel。
步骤20:计算文本区域内二值图像的投影直方图。对文本区域对应的二值图像的每一行像素计算黑像素点数目,然后从上到下排列每一行黑像素点数目,形成水平投影直方图,如图7a所示;对文本区域对应的二值图像的每一列像素计算黑像素点数目,然后从左到右排列每一列黑像素点数目,形成竖直投影直方图,如图7b所示。
接着统计直方图中投影柱的分布。在水平投影直方图中,本实施例中,最大投影值为304pixel,每隔17pixel统计一组投影柱数目,共得到18组三元组。首先选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元组中再选择异常投影柱最少的三元组,最后在得到的结果中再选取统计位置坐标值最小的三元组保存,如图9a所示,选中为第4组数据,正常投影柱数目为9,异常投影柱数目为6,统计位置坐标值为51pixel,得三元组<9,6,51>,剩余三元组数据丢弃不用,释放占用的存储空间。
在竖直投影直方图中,最大投影值为185pixel,则每隔17pixel统计一组投影柱数目,共得到11组三元组,首先选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元组中再选择异常投影柱最少的三元组,最后在得到的结果中再选取统计位置坐标值最小的三元组保存,如图9b所示,选中的为第5组数据,其中正常投影柱数目为15,异常投影柱数目为5,统计位置坐标值为68,得三元组<15,5,68>,剩余三元组数据丢弃不用,释放占用的存储空间。
步骤30:当文本区域字符行(列)数目小于既定数目3时,利用文本区域长宽比判断排版方向。如果水平投影直方图的三元组中正常投影柱数目小于既定数目3,并且文本区域高度小于既定高度字符高的4倍;竖直投影直方图的三元组中正常投影柱数目小于既定数目3并且文本区域宽度小于既定宽度字符高度的4倍,则认为文本区域字符的行(列)数小于3。
在文本区域字符的行(列)数小于3的情况下,排版方向判断规则如下:
1)文本区域宽度大于高度,则判断排版方向为水平;
2)文本区域高度大于宽度,则判断排版方向为竖直;
否则,无法判断该文本区域的排版方向。
本实施例中,水平投影直方图和竖直投影直方图的三元组中正常投影柱的数目为9和15,都大于3,所以跳过该步,直接进入下一步骤31。
步骤31:利用三元组中异常投影柱数目及统计位置坐标值判断排版方向。在本实施例中,水平投影直方图的三元组中异常投影柱数目6大于零,竖直投影直方图的三元组中异常投影柱的数目5大于零,并且水平投影直方图中的三元组中投影柱统计位置小于竖直投影直方图的三元组中投影柱统计位置,所以转步骤40。
步骤40:分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩,利用三元组中各正常投影柱间距的一阶距判断排版方向。在本实施例中,水平投影直方图的三元组中正常投影柱的数目为9,统计其间距的一阶距为5,小于既定距离字符高的0.5倍15pixel;竖直投影直方图的三元组中正常投影柱的数目为15,统计其间距的一阶距为5,小于既定距离字符高的0.5倍15pixel,转步骤50。
步骤50:根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和文本列,记录顶端和左端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方向。在文本区域中,段落的首行字符一般缩进两个字符宽度,利用缩进可以判断排版方向。
如图10所示,对于横排文本,其缩进包括三种形式,即文本区域的首行缩进、文本区域的尾行缩进及文本区域的中间行缩进。如图11所示,对于竖排文本,其缩进包括三种形式,即文本区域的右列缩进、文本区域的左列缩进及文本区域的中间列缩进。图10和图11中缩进的阈值为两个字符高。在统计位置坐标值处,正常投影柱的位置对应着文本区域中的文本行列的位置。判断规则如下:
1)如果存在行缩进,并且不存在列缩进,则排版方向判断为水平;
2)如果存在列缩进,并且不存在行缩进,则排版方向判断为竖直;
否则,无法判断文本区域的排版方向。
根据投影直方图中正常投影柱的位置,如图12a所示,实线框表示连通域,虚线框表示文本区域的文本行;如图12b中所示,实线框表示连通域,虚线框表示文本区域的文本列。在水平投影直方图中,记录下每一文本行中最左端连通域的位置,然后按照图10所示的三种情况,判断是否存在行缩进;在竖直投影直方图中,记录下每一文本列中最上端连通域的位置,然后按照图11所示的三种情况,判断是否存在列缩进。
在本实施例中,记录下每一文本列中最上端连通域的位置时,水平方向存在行缩进,竖直方向不存在列缩进,根据规则1),该文本区域的排版方向为水平方向。至此,图6所示的实施例的排版方向判断完毕。

Claims (9)

1.一种判断文本区域排版方向的方法,其特征在于,包括如下步骤:
步骤一:统计文本区域外接矩形内包含的字符连通域的高度,将出现频率最高的连通域高度作为字符高;
步骤二:对文本区域内的二值图像进行水平方向和竖直方向的投影,分别得到水平投影直方图和竖直投影直方图;统计直方图中投影柱的分布,在选定的统计位置依次选取正常投影柱数目、异常投影柱数目和统计位置坐标值并筛选为水平投影直方图对应的三元组和竖直投影直方图对应的三元组;
步骤三:如果投影直方图三元组中正常投影柱数目小于既定数目,且对于水平投影直方图来说文本区域的高度小于既定高度,或对于竖直投影直方图来说文本区域的宽度小于既定宽度,则比较文本区域的宽度和高度,宽度大于高度,则排版方向为水平,宽度小于高度,则排版方向为竖直;
步骤四:分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩;如果一方向上直方图的正常投影柱间距的一阶矩小于既定距离,且另一方向上直方图的正常投影柱间距的一阶矩大于既定距离,则排版方向与正常投影柱间距的一阶矩小于既定距离对应的方向一致;否则转到步骤五;
步骤五:根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和文本列,记录左端和顶端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方向。
2.根据权利要求1所述的方法,其特征在于:所述步骤二中,正常投影柱为当前统计位置坐标值处对应的宽度在字符高度0.5~1.5倍间的投影柱。
3.根据权利要求1所述的方法,其特征在于:所述步骤二中,异常投影柱为当前统计位置坐标值处对应的宽度小于字符高度0.5倍或大于字符高度1.5倍的投影柱。
4.根据权利要求1所述的方法,其特征在于:所述步骤二中,统计直方图中投影柱的分布时,在水平投影直方图和竖直投影直方图纵轴上,每隔半个字符高统计正常投影柱和异常投影柱数目,得到<正常投影柱数目,异常投影柱数目,统计位置坐标值>的三元组;然后在所得的正常投影柱最多的三元组中,选择异常投影柱最少的三元组,并在所得结果中选取统计位置坐标值最小的三元组保存,剩余三元组释放。
5.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于:所述步骤三中,既定数目为3,用来判定当前文本区域是否只有1至2行(列)。
6.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于:所述步骤三中,既定高度或既定宽度为4倍字符高,用来判定当前文本区域是否只有1至2行(列)。
7.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于:所述步骤三之后,步骤四之前还可进行步骤三一:
如果所述水平投影直方图对应的三元组和竖直投影直方图对应的三元组的异常投影柱数目都为零,则排版方向与两组三元组中对应的统计位置坐标值小的对应方向一致,如果两组三元组中对应的统计位置坐标值相等,则转到步骤四;
如果两组所述三元组中一方向上的异常投影柱数目为零,另一方向上的异常投影柱数目不为零,且异常投影柱数目为零对应的方向上三元组中统计位置坐标值小于等于异常投影柱数目不为零的方向上三元组中统计位置坐标值,则排版方向与异常投影柱数目为零对应的方向一致;如果异常投影柱数目为零对应的方向上三元组中统计位置坐标值大于异常投影柱数目不为零对应的方向上三元组中统计位置坐标值,则转到步骤四;
如果两组所述三元组中的异常投影柱数目都不为零,则如果一方向上三元组中统计位置坐标值较小,且该方向上三元组的异常投影柱数目较小,则排版方向与该方向一致;否则,转到步骤四。
8.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于:所述步骤四中,既定距离为字符高的0.5~2倍,用来衡量正常投影柱间距的波动情况。
9.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于:所述步骤五中,如果存在行缩进且无列缩进,则排版方向为水平方向;如果存在列缩进且无行缩进,则排版方向为竖直方向,否则无法判断文本区域的排版方向。
CN2009100848626A 2009-05-25 2009-05-25 判断文本区域排版方向的方法 Active CN101882215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100848626A CN101882215B (zh) 2009-05-25 2009-05-25 判断文本区域排版方向的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100848626A CN101882215B (zh) 2009-05-25 2009-05-25 判断文本区域排版方向的方法

Publications (2)

Publication Number Publication Date
CN101882215A true CN101882215A (zh) 2010-11-10
CN101882215B CN101882215B (zh) 2013-01-09

Family

ID=43054227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100848626A Active CN101882215B (zh) 2009-05-25 2009-05-25 判断文本区域排版方向的方法

Country Status (1)

Country Link
CN (1) CN101882215B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567732A (zh) * 2011-12-28 2012-07-11 方正国际软件有限公司 一种文档排版类型的检测方法及系统
CN102982011A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于识别失序文本的方法与设备
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
CN104077562A (zh) * 2014-05-22 2014-10-01 山东山大鸥玛软件有限公司 一种答卷的扫描方向判断方法
CN105308550A (zh) * 2013-06-17 2016-02-03 日立麦克赛尔株式会社 信息显示终端
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、系统
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN107798355A (zh) * 2017-11-17 2018-03-13 山西同方知网数字出版技术有限公司 一种基于文档图像版式自动分析与判断的方法
CN108205415A (zh) * 2016-12-19 2018-06-26 汉王科技股份有限公司 文本选择方法和装置
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN111582151A (zh) * 2020-05-07 2020-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置
GB2606474A (en) * 2020-06-25 2022-11-09 Adobe Inc Logical grouping of exported text blocks

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100388283C (zh) * 2006-09-14 2008-05-14 浙江大学 毛笔书法字检索方法
CN101206639B (zh) * 2007-12-20 2012-05-23 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982011B (zh) * 2011-09-07 2017-05-31 百度在线网络技术(北京)有限公司 一种用于识别失序文本的方法与设备
CN102982011A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种用于识别失序文本的方法与设备
CN102567732B (zh) * 2011-12-28 2013-11-06 方正国际软件有限公司 一种文档排版类型的检测方法及系统
CN102567732A (zh) * 2011-12-28 2012-07-11 方正国际软件有限公司 一种文档排版类型的检测方法及系统
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
CN105308550B (zh) * 2013-06-17 2019-01-01 麦克赛尔株式会社 信息显示终端
CN105308550A (zh) * 2013-06-17 2016-02-03 日立麦克赛尔株式会社 信息显示终端
CN104077562B (zh) * 2014-05-22 2017-08-08 山东山大鸥玛软件股份有限公司 一种答卷的扫描方向判断方法
CN104077562A (zh) * 2014-05-22 2014-10-01 山东山大鸥玛软件有限公司 一种答卷的扫描方向判断方法
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、系统
CN108205415B (zh) * 2016-12-19 2020-07-07 汉王科技股份有限公司 文本选择方法和装置
CN108205415A (zh) * 2016-12-19 2018-06-26 汉王科技股份有限公司 文本选择方法和装置
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN107798355A (zh) * 2017-11-17 2018-03-13 山西同方知网数字出版技术有限公司 一种基于文档图像版式自动分析与判断的方法
CN107798355B (zh) * 2017-11-17 2021-12-07 山西同方知网数字出版技术有限公司 一种基于文档图像版式自动分析与判断的方法
CN109934229A (zh) * 2019-03-28 2019-06-25 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN111582151A (zh) * 2020-05-07 2020-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置
CN111582151B (zh) * 2020-05-07 2023-08-25 北京百度网讯科技有限公司 文档图像朝向检测方法和装置
GB2606474A (en) * 2020-06-25 2022-11-09 Adobe Inc Logical grouping of exported text blocks
GB2606474B (en) * 2020-06-25 2023-04-26 Adobe Inc Logical grouping of exported text blocks

Also Published As

Publication number Publication date
CN101882215B (zh) 2013-01-09

Similar Documents

Publication Publication Date Title
CN101882215B (zh) 判断文本区域排版方向的方法
Shi et al. Line separation for complex document images using fuzzy runlength
US5889886A (en) Method and apparatus for detecting running text in an image
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
US6009196A (en) Method for classifying non-running text in an image
US5613016A (en) Area discrimination system for text image
TWI223212B (en) Generalized text localization in images
US8462394B2 (en) Document type classification for scanned bitmaps
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
JP6262188B2 (ja) 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法
EP1310912A2 (en) Image processing method, apparatus and system
US7286718B2 (en) Method and apparatus for determination of text orientation
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
EP0949579A2 (en) Multiple size reductions for image segmentation
CN100487723C (zh) 一种印刷体斜体字符的识别方法
Shi et al. Skew detection for complex document images using fuzzy runlength
Mullick et al. An efficient line segmentation approach for handwritten Bangla document image
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
Amin et al. Page segmentation and classification utilizing bottom-up approach
Bataineh et al. Generating an arabic calligraphy text blocks for global texture analysis
JP3285686B2 (ja) 領域分割方法
El Bahi et al. Document text detection in video frames acquired by a smartphone based on line segment detector and dbscan clustering
CN113421256A (zh) 一种点阵文本行字符投影分割方法及装置
Chun et al. Text extraction in videos using topographical features of characters
CN106156772A (zh) 用于确定词间距的方法和设备以及用于分词的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant