CN1790377B - 反白字符识别的块分类方法和文本行生成方法 - Google Patents
反白字符识别的块分类方法和文本行生成方法 Download PDFInfo
- Publication number
- CN1790377B CN1790377B CN 200410082123 CN200410082123A CN1790377B CN 1790377 B CN1790377 B CN 1790377B CN 200410082123 CN200410082123 CN 200410082123 CN 200410082123 A CN200410082123 A CN 200410082123A CN 1790377 B CN1790377 B CN 1790377B
- Authority
- CN
- China
- Prior art keywords
- text
- block
- piece
- gray scale
- picture element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Abstract
本发明提供了识别文本块,从而判断文本编辑方向,并辨别反白字符的方法和设备。因为利用图像块边缘附近的黑色和白色像素的直方图,计算图像块边界上的黑色像素的阈值或阈值范围,所以可以计算所述图像块边界上的黑色像素密度,且可以根据黑色像素密度有效地判断图像块的类型。而且,根据本发明,因为从图像块精确地识别反白字符的方法利用图像块边界上的平均灰度来表示图像块背景的灰度,如果确定背景的灰度小,而前景的灰度大,那么字符判断为反白字符,反之亦然。
Description
发明领域
本发明涉及一种字符识别的方法和设备,尤其涉及一种从图像中识别文本块和反白字符,并进而判断文本编辑方向的方法和设备。
背景技术
在现有技术中,图像二值化(或寻找阈值)通常是光学字符识别(OCR)系统的第一步。它将灰度图像转换成分别表示文本和背景的二元型式。OCR的识别率主要基于二值图像的质量。然而,对于对比度差或复杂背景的文本图像来说,很难找到适当的阈值将文本与背景分开。虽然在过去的多年来已经提出了多种阈值选择方法,包括全局和局部阈值方法,但当前二值化方法的质量仍然限制了OCR的性能。
在一些情况下,由于字符本身的极大变化,特别是由字符前景和背景表示的主要信息的差别,会出现反白字符,即,表示字符背景的灰度小于字符前景的灰度。因为分别由字符前景表示的信息和字符背景表示的信息改变,如果不能从字符中区别出反白字符,则许多操作的结果将很可能变差。所以,反白字符的出现增加了文献图像加工领域中精确识别图块的难度。
在现有技术中,有两种辨别二值图像中的反白字符的算法:扫描宽度算法和统计算法。
扫描宽度算法,例如US5594815,根据文本块中黑点和白点的扫描宽度,以及扫描宽度的位置判断文本块是否是反白字符。但是,它难以计算出用于正确地区别文本区域背景和前景的阈值,该阈值受噪声的影响很大。所以,使用扫描宽度算法辨别反白字符的结果不太好。
统计算法,例如参见JP No.3367982,根据不同的数学方法对分别属于前景和背景的象素的统计结果辨别反白字符。但它难以分开前景和背景,尤其是当前景和背景之间的对比度非常小时,或背景非常复杂时。所以,利用统计算法辨别反白字符的结果不太好。而且,对于具有各种背景和噪声的、不同大小和不同种类的字符来说,统计公式通常很不稳定。
在文献图像二值化中,需要在图块分类之后合并文本块。文本块可以分成长文本块和短文本块,且长文本块仅通过自身就可以指示文本编辑方向,而短文本块必须结合相邻的文本块来判断文本编辑方向。一些现有技术的方法仅根据整个文献图像,即,通过首先使整个文献图像二值化,来判断文本编辑方向,但不能动态地、局部地判断文本编辑方向,并产生非常规则的正文行。
发明内容
本发明是在考虑了上述现有技术的问题而作出的。
本发明的目的是提供一种新颖、简单的将图像块分成文本、反白文本和非文本,即识别文本块的方法和设备。
本发明的另一目的是提供一种从图像块精确地辨别反白字符的简单方法和设备。
本发明的另一目的是提供一种动态地、局部地判断文本编辑方向的新颖方法和设备。
根据本发明的第一方面,从输入的图像块识别文本块的方法包含下述步骤:
计算图像块边缘附近的黑色象素的直方图和图像块边缘附近的白色象素的直方图的直方图计算步骤;
根据黑色和白色象素的所述直方图,计算图像块边界上的黑色象素阈值的二值化阈值计算步骤;
使用所述阈值对所述输入图像块二值化的二值化步骤;
根据所述二值化步骤获得的结果,判断二值化图像边界上的象素是否几乎是白色或黑色或其他,从而判断图像块的类型是文本、反白文本或非文本的判断步骤。
可取的是,所述二值化阈值计算步骤包含计算图像块中黑色象素的阈值范围,所述二值化步骤还包含分别使用所述阈值范围内的最小阈值(nMinThr)和最大阈值(nMaxThr)使所述输入图像块二值化。
可取的是,所述判断步骤包含根据所述最小阈值(nMinThr)和最大阈值(nMaxThr),计算边界上的黑色象素的最小黑色象素密度(MinBlackDensity)和最大黑色象素密度(MaxBlackDensity)的计算步骤,根据黑色象素密度判断图像块类型。
可取的是,所述二值化阈值计算步骤还包含将黑色象素和白色象素的直方图组合成组合的直方图,其中如果黑色象素的直方图和白色象素的直方图不交叉,则黑色象素的直方图的最大灰度选择为最小阈值(nMinThr),白色象素的直方图的最小灰度选择为最大阈值(nMaxThr),如果黑色象素的直方图和白色象素的直方图交叉,则A至C的比值落入[0.5,0.7]内的任何一种灰度选择为最小阈值(nMinThr),B至C的比值落入[0.75,0.95]内的任何一种灰度选择为最大阈值(nMaxThr),其中C是图像块边缘附近的黑色象素总数,A是图像块边缘附近的其灰度小于最小阈值(nMinThr)的黑色象素数目,B是图像块边缘附近的其灰度小于最大阈值(nMaxThr)的黑色象素数目。在[0.5,0.7]内的所述比值优选为0.6,在[0.75,0.95]内的所述比值优选为0.85。
根据本发明的第二方面,从输入的图像块识别反白字符的方法,包含:使用图像块边界上的平均灰度来表示图像块背景灰度的灰度平均步骤;计算图像块的直方图的直方图计算步骤;从直方图计算用来表示图像块背景和前景的两个灰度值的灰度计算步骤;将在灰度计算步骤中计算出的这两个值各自与灰度平均步骤中计算出的平均灰度之间的距离进行比较,从而辨别反白字符的比较步骤,其中,如果平均灰度更接近所述两个灰度值中较小的灰度值,那么图像块为反白字符;否则,图像块为非反白字符。
这种辨别反白字符的方法基于字符本身的基本特征,且最初辨别的结果通过图像块的边界进一步检查。通常,字符具有其自身固有的特征:在前景和背景之间的对比度必须大到某一程度,以便识别。背景的灰度可以由图像块边界上的这些象素的灰度来表示。如果图像块边界上的这些象素的灰度小,那么背景的灰度小,前景的灰度大,字符为反白字符;反之,字符不是反白字符。判断图像块边界上这些象素的灰度是大还是小基于直方图中的两个峰值或Otsu阈值。这可以保证根据不同的字符适配阈值,增加辨别反白字符的精度。
可取的是,所述灰度平均步骤包含平均图像块中的象素和从图像块的边界扩展至少一个象素的所有象素的总灰度。
这种辨别反白字符的方法的优点如下:
适应性:阈值计算适于不同种类和尺寸的字符,各种背景复杂性以及背景和前景之间的对比度,所以这种方法的输出对于所有种类的字符都稳定。
背景无关:字符背景的复杂性对这种方法有非常小的影响;即使字符的背景非常复杂,比如包括图片背景,这种方法也可以精确地辨别反白字符。
亮度无关:字符背景和前景之间的对比度对这种方法有非常小的影响;即使对比度非常小,大于10个象素,这种方法也可以精确地辨别反白字符。
尺寸无关:这种方法可以处理大于10×10象素的字符。
高反白字符辨别率
低误差辨别率
根据本发明的第三方面,本发明还提供了一种判断文本编辑方向的方法,本发明的该第三实施例可以与识别文本块的现有技术方法结合使用,或可在完成如本发明的第一或第二实施例所述的方法之后,用作合并文本块的步骤。
判断文本编辑方向的所述方法包含:
为文本块定义第一组限制条件的步骤,所述限制条件包括表示文本块之间的间距的第一nSpaceLimit;
寻找文本块的步骤;
对于在寻找文本块的所述步骤中找到的短块,计算包括所述短块所在的那一行的至少两个连续文本行的每两个相邻文本行之间的行间距的至少一个值,和在所述短文本块所在的同一文本行内,在至少三个连续文本块的每两个相邻文本块之间间距的至少两个值的步骤;
将行间距的所述值和间距的所述值与所述第一nSpaceLimit进行比较的步骤;
根据所述比较步骤的结果,判断局部文本编辑方向的步骤,其中如果行间距的所述值和间距的所述值都大于所述第一nSpaceLimit,那么所述文本块不能用于判断局部文本编辑方向,返回寻找另一文本块的步骤,如果行间距的所述至少一个值的最小值小于间距的所述至少两个值的最小值,那么局部文本编辑方向判断为水平的,如果行间距的所述至少一个值的最小值大于间距的所述至少两个值的最小值,那么局部文本编辑方向判断为竖直的;
根据所述局部文本编辑方向合并所选短文本块的相邻块的步骤。
可取的是,判断文本编辑方向的方法还包含:
为文本块定义第二组限制条件的步骤,所述条件包括表示文本块之间间距的第二nSpaceLimit,所述第二nSpaceLimit小于所述第一nSpaceLimit;
重复从寻找文本块的步骤到合并相邻块的步骤的其他步骤。
可取的是,所述第一组限制条件包括表示文本块尺寸的第一nShortLimit和第一nLongLimit,即表示文本块的较小和较大尺寸的nShortLimit和第一nLongLimit;文本块的第一长宽比,寻找文本块的所述步骤包含利用这些限制条件来判断文本块是否是短块。
可取的是,所述第二组限制条件包括第二nShortLimit,第二nLongLimit和第二长宽比,它们分别小于所述第一nShortLimit,第一nLongLimit和第一长宽比。
可取的是,判断文本编辑方向的方法还包含:
为文本块定义第三组限制条件的步骤,所述条件包括表示文本块之间间距的第三nSpaceLimit,所述第三nSpaceLimit大于所述第一nSpaceLimit;
重复从寻找文本块的步骤到合并相邻块的步骤的其他步骤。
类似地,所述第三组限制条件包括第三nShortLimit,第三nLongLimit和第三长宽比,它们分别小于所述第二nShortLimit,第二nLongLimit和第二长宽比。
本发明还提供了一种识别文本块,识别反白字符和判断文本编辑方向的设备。
本发明还提供了一种存储介质,该介质存储有执行对字符块分类,识别反白字符和判断文本编辑方向的上述方法步骤的程序。
从下面结合附图的描述,本发明的其他特征和优点将更为明显。
附图说明
包括在本说明书内且构成说明书的一部分的附图,示出了本发明的实施例,结合描述内容,用于解释本发明的原理。
图1是示出了整个文献图像二值化的流程图;
图2是示出了根据本发明的第一实施例提取块边界上的特征-黑色象素密度的流程图;
图3A示出了本发明第一实施例的边缘附近的象素;
图3B和图3C示出了组合的直方图,其中输入块中黑色象素和白色象素的直方图不交叉和交叉;
图4是示出了四个提取特征:块尺寸,长宽比,边缘密度和块边界上的黑色象素密度用于对块的类型进行分类的流程图;
图5是示出了根据本发明的第二实施例辨别反白字符的方法的流程图;
图6示出了具有两个矩形的图像块,其中计算两矩形中象素的平均灰度;
图7是示出了找出峰值数目和这些峰值在图像块的直方图中的位置的步骤的流程图;
图8A和8B示出了具有两个峰值的图像块的直方图,其中计算它们的ATBG(图像块边界上的象素的平均灰度);
图8C和8D示出了不具有两个峰值的直方图,其中计算它们的ATBG(图像块边界上的象素的平均灰度);
图8E示出了不能通过其他的现有方法辨别,但可以通过本发明的第二实施例所述的方法辨别的字符;
图9A-9E示出了根据本发明的第三实施例在判断文本编辑方向和合并文本块的一个循环中的步骤;
图10是示出了根据本发明的第三实施例的判断文本编辑方向的方法的流程图;
图11示出了根据本发明的第三实施例判断文本编辑方向的结果;
图12是一种实现识别文本块的所述方法的设备框图;
图13是一种实现从图像块辨别反白字符的所述方法的设备框图;
图14是一种实现判断文本编辑方向的所述方法的设备框图。
实现本发明的具体方式
下面参照附图描述本发明的实施例的光学字符识别方法和设备。
整个文献图像的二值化在图1中示出,且包含下述步骤:输入文献图像;定位边界象素;布局分析,寻找连通元素,块分类,合并文本块,计算阈值和二值化。
本发明的第一实施例涉及块的分类,第二实施例尤其涉及识别图像块中的反白字符。本发明还提供了一种用于判断辨别的文本或反白文本的文本编辑方向的方法和设备。
实施例1:
在该实施例中,本发明为块的分类提出下述特征-块边界上的黑色象素密度,且根据实施例1,所述方法包含计算块边界上黑色象素密度的阈值。为更高的精确度,推荐计算块边界上黑色象素密度的阈值范围,其中在该阈值范围内的两个端点值:最小阈值(nMinThr),最大阈值(nMaxThr)优选用于判断块边界上的黑色象素密度。
在此,本发明提供了一个引入的概念-边缘附近的象素。图3A示出了边缘附近的象素。对于图像块的水平边缘,边缘附近的白色象素指的是水平地分别在两侧最靠近白色边缘象素的两个象素,对于图像块的竖直边缘,边缘附近的白色象素指的是水平地分别在两侧最靠近白色边缘象素的两个象素,即靠近白色边缘象素的左、右两个象素。对于在水平和竖直边缘上的边缘附近的黑色象素也是同样。
图2是示出了提取特征-块边界上的黑色象素密度的流程图,且将参照该图描述处理过程。
如图2所示,在输入块之后,计算Blackhist(黑色象素直方图)和WhiteHist(白色象素直方图)(步骤S2.1),其中BlackHist表示在一个图像块中边缘附近黑色象素的直方图,WhiteHist表示在该图像块中边缘附近白色象素的直方图。
在步骤S2.2处,确定BlackHist和WhiteHist是否交叉。
如果BlackHist和WhiteHist不交叉,那么BlackHist的最大灰度选择为最小阈值(nMinThr),WhiteHist的最小灰度选择为最大阈值(nMaxThr)(步骤S2.3)。
如果BlackHist和WhiteHist交叉,那么A至C的比值落入[0.5,0.7]内,优选为0.6的灰度选择为最小阈值(nMinThr),且B至C的比值落入[0.75,0.95]内,优选为0.85的灰度选择为最大阈值(nMaxThr)(步骤S2.4),其中C是图像块中边缘附近的黑色象素总数,A是图像块中边缘附近的其灰度小于最小阈值(nMinThr)的黑色象素数目,B是图像块中边缘附近的其灰度小于最大阈值(nMaxThr)的黑色象素数目。
例如,当BlackHist和WhiteHist交叉时,图像块中黑色象素总数乘以0.6对应的灰度为最小阈值(nMinThr),黑色象素总数乘以0.85对应的灰度为最大阈值(nMaxThr)。此时,如果黑色象素总数和0.85或0.6的乘积不是整数,则选择乘积的圆整数,从而确定对应的灰度。
图3B和3C分别示出了当BlackHist和WhiteHist不交叉和交叉时最小阈值(nMinThr)和最大阈值(nMaxThr)的计算。
在计算出最小阈值(nMinThr)和最大阈值(nMaxThr)之后,分别使用最小阈值(nMinThr)和最大阈值(nMaxThr)对所述块二值化,优选仅其边缘,且提取特征,即块边界上黑色象素密度可以使用阈值范围[nMinThr,nMaxThr]判断(例如,参见图2的步骤S2.5和S2.6)。根据关于块边界上黑色象素密度的上述结果,显然可以以下述方式判断块的类型:
(1)如果块边界上的象素几乎是白色的,那么该块为文本,
(2)如果块边界上的象素几乎是黑色的,那么该块为反白文本,
(3)否则,该块为非文本。
现在参照步骤S4.1和S4.2了解使用阈值范围[nMinThr,nMaxThr]的细节。尤其是,在分别使用最小阈值(nMinThr)和最大阈值(nMaxThr)对图像块二值化之后,可以计算两个黑色象素密度,它们分别是最小黑色象素密度(MinBlackDensity)和最大黑色象素密度(MaxBlackDensity)。如果最小黑色象素密度(MinBlackDensity)小于预定阈值,那么该块为文本,否则如果最小黑色象素密度(MinBlackDensity)不小于预定阈值,那么确定最大黑色象素密度(MaxBlackDensity)是否大于另一预定阈值:如果最小黑色象素密度(MinBlackDensity)大于所述预定阈值,那么该块为反白文本,如果答案为否,那么该块为非文本。
在该段中所述的块边界上黑色象素密度的上述预定阈值可以通过试验确定。
除了块边界上的上述黑色象素密度之外,本发明的块分类的方法可以利用包括块尺寸;长宽比和边缘密度的下述任一特征来判断块的类型。
1.块尺寸:宽度=min(宽度,高度);长度=max(宽度,高度)
2.长宽比:长宽比=长度/宽度;
3.边缘密度:边缘密度=边缘象素/总象素
图4示出了使用全部四个特征来对块的类型分类的整个流程图,并参照该图解释处理过程:
1.计算块尺寸
如果长度小于阈值,或宽度大于阈值,那么该块为非文本。
2.计算长宽比
如果长宽比大于阈值,那么该块为非文本。
3.计算边缘密度
如果边缘密度小于阈值,那么该块为非文本。
4.计算块边界上的黑色象素密度
如上所述,在二值化之后,如果块边界上的象素几乎全是白色的,那么该块为文本,否则如果块边界上的象素几乎全是黑色的,那么该块为反白文本,否则该块为非文本。
由此可见,与现有技术相比,实施例1提供了一种容易且精确的方式来确定边界上的黑色象素的阈值范围[nMinThr,nMaxThr],从而判断块的类型。
实施例2
如上所述,考虑到对于反白字符来说,前景的灰度较大,但背景的灰度较小,而对于非反白字符来说,前景的灰度较小,但背景的灰度较大,该实施例提出在输入图像块之后,计算图像块边界的灰度平均值,并将该平均值用于表示图像块背景的灰度。另一方面,计算图像块的直方图,从而从该直方图计算两个灰度值,来表示图像块的背景和前景。最后,在直方图中计算出的这两个值和如上所述计算的平均灰度之间的两个距离进行比较,从而识别反白字符。
下面参照图5详细描述描述从图像块辨别反白字符的步骤。
1使图像块扩展1个象素
为了使图像块边界的灰度平均,该实施例示出了具有两个矩形的图像块,其中计算两个矩形中的象素的平均灰度,如图6所示。尤其是,使围绕图像块的基本矩形扩展一个象素,从而得到一个派生出的更大、最外的矩形。尤其是,通过使基本矩形的顶线向上偏移一个象素而得到最外矩形的顶线;通过使基本矩形的左线向左偏移一个象素而得到最外矩形的左线;通过使基本矩形的底线向下偏移一个象素而得到最外矩形的底线;通过使基本矩形的右线向右偏移一个象素而得到最外矩形的右线。
如上,在扫描坐标中它们的位置关系表示如下:
矩形->顶(最外)=矩形->顶(基本)-1
矩形->底(最外)=矩形->底(基本)+1
矩形->左(最外)=矩形->左(基本)-1
矩形->右(最外)=矩形->右(基本)+1
应当指出的是,扩展的象素不限于一个象素,也可以选择一个以上的象素来平均灰度。而且,图像块的矩形形状仅是最佳的,而非唯一的示例,显然可以使用基本上模仿图像块形状的其他规则形状,象圆形。
2计算图像块的最外两矩形中象素的平均灰度
在图6中,计算基本矩形和最外矩形中的象素数目,并计算这些象素的总灰度,然后计算两矩形中这些象素的平均灰度:
图像块边界上的这些象素的平均灰度也可简写为ATBG。
3寻找图像块的直方图中峰值的数目和这些峰值的位置,从而寻找峰值,请参见图7。
首先平滑灰度为0的象素,并处理噪声。然后平滑平均具有1×3窗口(window)的所有象素。从峰值i=0开始,确定灰度的最大值是否在50内,如果灰度的最大值不在50内,那么判断峰值循环(i+1)的相同峰值;如果在50内,那么判断峰值循环(i+1)的候选峰值,直到循环次数达到255(nLoop=255)。
然后从i=0开始,判断是否峰值(i)和峰值(i+1)之间的距离大于15,如果不大于15,那么删除该峰值,并从峰值(i+1)开始,但是,如果答案是大于15,那么直接从峰值(i+1)开始,直到i等于峰值的数目。
4.如果图像块的直方图有两个峰值,那么分别计算ATBG和这两个峰值之间的距离。
图8A示出了非反白字符及其直方图的峰值,以及ATBG;和8B示出了反白字符及其直方图的峰值,以及ATBG。
对于图像块,如果它的直方图具有两个峰值,那么这两个峰值分别表示字符前景和背景的灰度。对于反白字符,左峰值(Peakl)表示字符背景,右峰值(Peakr)表示字符前景。对于非反白字符,左峰值表示字符前景,右峰值表示背景。通过从ATBG减去左峰值而计算ATBG和左峰值之间的距离,通过从右峰值减去ATBG而计算ATBG和右峰值之间的距离:
d1=ATBG-Peakl
d2=Peakr-ATBG
5.如果ATBG更接近左峰值,那么图像块为反白字符;否则,图像块为非反白字符。
因为ATBG接近字符背景的灰度,如果ATBG更接近直方图中的左峰值,那么字符背景的灰度小,字符前景的灰度大,图像块为反白字符。否则,图像块为非反白字符:
如果d1<d2
那么字符为反白字符
否则
字符为非反白字符
6.如果图像块的直方图没有两个峰值,那么使用Otsu算法来计算图像块的全局阈值(Th)。
对于图像块的各种前景和背景,图像块的直方图可以没有两个峰值,如图8C和8D所示。
如果该直方图没有两个峰值,那么必须使用阈值来分开字符背景和字符前景。对于该方法,预先确定阈值(Th),因为阈值选择将产生一些误差。在该方法中,对于不同的图像块,使用Otsu算法计算不同的阈值,且这将增加辨别反白字符的精度。
7.计算其灰度小于Th的象素的平均灰度,和其灰度大于Th的象素的平均灰度。
计算其灰度小于Th的象素的数目和这些象素的总灰度,然后计算这些象素的平均灰度。计算其灰度大于Th的象素的数目和这些象素的总灰度,然后计算这些象素的平均灰度。这两个平均灰度(Avel,Aver)分别表示字符前景和字符背景的灰度。
Avel=∑(Gray<Th)/nCount
Aver=∑(Gray>Th)/nCount
8.分别计算Ave和这两个平均灰度(Avel,Aver)的距离
从Ave减去较小的平均灰度(Avel),从较大的平均灰度(Aver)减去Ave:
d3=ATBG-Avel
d4=Aver-ATBG
应当指出,在此假定平均灰度Avel较小。
9.如果Ave更接近较小的平均灰度(Avel),那么图像块为反白字符;否则,图像块为非反白字符。
因为Ave接近字符背景的灰度,如果Ave更接近较小的平均灰度(Avel),那么字符背景的灰度小,字符前景的灰度大,图像块为反白字符;否则,图像块为非反白字符。
如果d3<d4
那么字符为反白字符
否则
字符为非反白字符
试验结果和分析:
为了评价该实施例2,利用20097个图像块来测试所述的方法,包括9209个反白图像块,10888个非反白图像块。试验结果在下表1中列出:
表1
图像块数目 | 20097 |
反白图像块数目 | 9209 |
图像块数目 | 20097 |
非反白图像块数目 | 10888 |
辨别的反白图像块数目 | 9209 |
错误辨别的反白图像块数目 | 2 |
反白字符辨别率 | 100% |
反白字符错误辨别率 | 0.022% |
从表1中可以得出利用实施例2中使用的方法来辨别反白字符,辨别结果非常精确,且反白字符误为非反白字符的比例较小。这种方法可以精确地辨别反白字符的原因是这种方法利用字符的特征:为了识别,字符前景和背景之间的对比度必须在某种程度上稍大,且图像块边界上的这些象素的灰度接近背景的灰度,所以背景的灰度可以由图像块边界上的这些象素的灰度代替。因此,前景和背景可以精确地区别开。
这种方法几乎对所有种类的字符适用。本发明人确认如图8E所示的字符可以通过这种方法有效地辨别,但不能通过其他的现有方法辨别。
实施例3
本发明还提供了一种判断文本编辑方向和通过至少一个循环合并文本块的方法,且每一循环步骤与另一循环相同(例如,参见图10),但限制条件不同,条件从严到松。
在该实施例3中,本发明提出使用三个循环。但本领域的技术人员可以想到使用一个循环,两个循环或三个以上的循环足以实现本发明的目的。下面结合图9A-9E和图10描述该实施例的一个循环中的步骤。
第一步骤是查找长文本块:
如图9A所示,确定:
如果min[块宽度,块高度]>nShortLimit,且
如果max[块宽度,块高度]<nLongLimit,且
如果max[块宽度,块高度]/min[块宽度,块高度]>长宽比,
那么该文本块为长文本块。
接着确定长文本块的文本编辑方向:如果块宽度大于块高度,那么文本编辑方向是水平的,否则,文本编辑方向是竖直的。
第二步骤是合并所选长文本块的相邻文本块:
如图9B所示,寻找其高度和宽度分别是文本块的行高度或列宽度乘以系数(优选为0.6)的乘积的区域。如果间距小于nSpaceLimit,且如果块1位于该区域内,那么将块0和1合并成新块0。接着确定如果间距小于nSpaceLimit,且如果块2位于该区域内,那么将新块0和另一相邻块合并成整个新块。
第三步骤是寻找短文本块:
如图9C所示,确定:
如果min[宽度,高度]>nShortLimit,且
如果max[宽度,高度]<nLongLimit,且
如果max[宽度,高度]/min[宽度,高度]<长宽比,
那么该文本块为短文本块。
第四步骤是根据短文本块判断局部文本编辑方向。
文本行之间的行间距和行中文本块之间的间距可以示出局部的文本编辑方向。行中文本块之间的间距小于文本行之间的间距。
第五步骤是确定局部的文本编辑方向。
如图9D所示,对于短文本块,水平地和竖直地拾取相邻的文本块;计算这些块之间的间距,该间距包括这些文本块之间的间距1,间距2和间距3以及这些文本块之间的竖直间距;然后根据这些间距和行间距判断局部文本编辑方向。尤其是,如果min[间距1,间距2,间距3]小于行间距,那么局部文本排列是水平的,反之亦然。
作为上述第五步骤的选择,如图9E所示,计算块之间的间距L1,L2和L3以及文本行之间的行间距V1,V2和V3,
如果min[L1,L2,L3]>nSpaceLimit且min[V1,V2,V3]>nSpaceLimit,那么块0不能用于判断文本排列,然后选择另一短文本块;
否则,如果min[L1,L2,L3]<min[V1,V2,V3],那么局部文本排列是水平的;
否则,如果min[V1,V2,V3]<min[L1,L2,L3],那么局部文本排列是竖直的。
在一个循环中最后的步骤是合并选择的短文本块的相邻文本块:
对于选择的短文本块,在判断了局部文本编辑方向之后,可以根据该文本编辑方向合并相邻的块。
合并方法与上述第二步骤相同。
在图10中,如果循环小于3,那么返回而设定更宽松的条件,并如上所述开始步骤1。
如上所述,该方法使用三个循环来合并文本块,且当一循环完成时,另一循环继续,直到全部三个循环完成。
虽然每个循环的步骤与另一循环相同,但限制条件不同,且这些限制条件从严到松。所以该方法的结果非常稳定。
在此,这些限制条件是nShortLimit,nLongLimit,长宽比和nSpaceLimit,且所有这些变量根据规则的文本字符和行来选择,且可以由本领域的技术人员完成。下面是在该实施例中用作这些限制条件的值。
表2
循环1 | 循环2 | 循环3 | |
nShortLimit | 16-20,优选为18 | 16-20,优选为18 | 13-17,优选为15 |
nLongLimit | 37-40,优选为40 | 37-40,优选为40 | 57-60,优选为60 |
长宽比 | 2.5 | 1.5 | 1.5 |
nSpaceLimit | 10-8,优选为10 | 15-13,优选为15 | 20-18,优选为20 |
[0195]图11示出了判断在左侧的输入图像的文本编辑方向的结果,结果在右侧示出。
如上所述,根据本发明,提供了一种用于识别文本块和反白字符,且动态地、局部地判断文本编辑方向的方法和设备。因为利用图像块边缘附近的黑色和白色象素的直方图,计算图像块边界上的黑色象素的阈值或阈值范围,所以可以计算所述图像块边界上的黑色象素密度,且可以根据黑色象素密度有效地判断图像块的类型。而且,根据本发明,因为从图像块精确地识别反白字符的方法利用图像块边界上的平均灰度来表示图像块背景的灰度,如果确定背景的灰度小,而前景的灰度大,那么字符判断为反白字符,反之亦然。此外,根据编辑文本的基本特征,判断文本编辑方向的本方法,利用一组以上的限制条件来分析文本块,所以可以容易地判断文本编辑方向。
在上述内容中,本发明已经在优选实施例中描述为方法或软件程序。对于本发明来说,指出本发明优选用于任何公知的计算机系统,比如个人计算机是有利于理解的。所以,在此将不详细论述计算机系统。指出图像直接输入计算机系统(例如通过数码相机)或在输入计算机系统之间数字化(例如通过扫描)也是有指导意义的。
而且,如在此所使用的,具有存储在上面用于执行上述方法的计算机程序的计算机可读取存储介质可包含,例如,磁性存储介质,比如磁盘(比如软盘)或磁带;光学存储介质比如光盘,光带,或机器可读取条形码;固态电子存储器件,比如随机存取存储器(RAM),或只读存储器(ROM),或任何其他用于存储计算机程序的物理器件或介质。
此外,本领域的技术人员将容易认识到上述软件的等同物也可以以硬件形式构成。
图12示出了一种用于实现上述从输入图像块识别文本块的方法的设备,该设备包含:
输入装置121,输入图像块,
直方图计算装置122,计算图像块边缘附近的黑色象素的直方图,和图像块边缘附近的白色象素的直方图,
二值化阈值计算装置123,根据黑色和白色象素的所述直方图,计算图像块边界上的黑色象索的阈值范围,
二值化装置124,利用所述阈值范围内的最小阈值(nMinThr)和最大阈值(nMaxThr),使所述输入图像块二值化,
判断装置125,判断二值化图像边界上的象素是否几乎是白色或黑色或其他,从而根据二值化装置得到的结果判断图像块类型。
图13示出了一种实现上述从输入图像块识别反白字符的方法的设备,该设备包含:
灰度平均装置131,利用图像块边界上的平均灰度来表示图像块背景的灰度;
直方图计算装置132,计算图像块的直方图;
灰度计算装置133,从直方图中计算用来表示图像块的背景和前景的两个灰度值;
比较装置134,将灰度计算装置所输出的这两个值各自与灰度平均装置所输出的平均灰度之间的距离进行比较,从而识别反白字符。
图14示出了一种用于实现上述判断文本编辑方向的方法的设备,该设备包含:
为文本块定义一组限制条件的定义装置141,所述条件包括表示文本块间距的第一nSpaceLimit;
从文本块中寻找短文本块和长文本块的寻找装置142,其中可以合并所选长文本块的相邻文本块;
计算装置143,计算包括所述短块所在的那一行的至少两个连续文本行的每两个相邻文本行之间的行间距的至少一个值,和在所述短文本块所在的同一文本行内,在至少三个连续文本块的每两个相邻文本块之间间距的至少两个值;
比较装置144,将行间距的所述值和间距的所述值与所述第一nSpaceLimit进行比较;
判断装置145,当行间距的所述至少一个值和间距的所述至少两个值都大于所述nSpace Limit时,判断所述文本块不能用于判断局部文本编辑方向, 当行间距的所述值和间距的所述值都大于所述nSpace Limit时,判断局部文本编辑方向;
合并装置146,根据所述局部文本编辑方向,合并所选短文本块的相邻块。
已经针对具体实施例描述了本发明。应当理解,本发明不限于上述描述,本领域的技术人员可以作出各种变化和改进,而不脱离本发明的主旨和范围。
Claims (25)
1.一种从输入的图像块识别文本块的方法,包含:
计算图像块边缘附近的黑色象素的直方图和同一图像块边缘附近的白色象素的直方图的直方图计算步骤;
根据黑色和白色象素的所述直方图计算图像块边界上的黑色象素阈值的二值化阈值计算步骤;
使用所述阈值使所述输入图像块二值化的二值化步骤;和
根据所述二值化步骤获得的结果,判断二值化图像的边界上的象素是否几乎是白色或黑色或其他,从而判断图像块的类型是文本,反白文本或非文本的判断步骤。
2.如权利要求1所述的识别文本块的方法,其特征在于所述二值化阈值计算步骤包含计算图像块中黑色象素的阈值范围,所述二值化步骤还包含分别使用所述阈值范围内的最小阈值nMinThr和最大阈值nMaxThr使所述输入图像块二值化。
3.如权利要求2所述的识别文本块的方法,其特征在于所述判断步骤包含根据所述最小阈值nMinThr和最大阈值nMaxThr,计算边界上的黑色象素的最小黑色象素密度MinBlackDensity和最大黑色象素密度MaxBlackDensity的计算步骤,并根据黑色象素密度判断图像块类型。
4.如权利要求2所述的识别文本块的方法,其特征在于所述二值化阈值计算步骤还包含将黑色象素和白色象素的直方图组合成组合的直方图,其中如果黑色象素的直方图和白色象素的直方图不交叉,则黑色象素的直方图的最大灰度选择为最小阈值nMinThr,白色象素的直方图的最小灰度选择为最大阈值nMaxThr,
如果黑色象素的直方图和白色象素的直方图交叉,则A与C的比值落入[0.5,0.7]内的任何一种灰度选择为最小阈值nMinThr,B与C的比值落入[0.75,0.95]内的任何一种灰度选择为最大阈值nMaxThr,其中C是图像块中边缘附近的黑色象素总数,A是图像块中边缘附近的灰度小于所述最小阈值nMinThr的黑色象素数目,B是图像块中边缘附近的灰度小于最大阈值nMaxThr的黑色象素数目。
5.如权利要求4所述的识别文本块的方法,其特征在于A与C的所述比值为0.6,B与C的所述比值为0.85。
6.如权利要求1所述的识别文本块的方法,其特征在于还包含在直方图计算步骤之前,计算输入图像块的块尺寸,然后判断该块是文本或非文本的块尺寸计算步骤。
7.如权利要求1所述的识别文本块的方法,其特征在于还包含在直方图计算步骤之前,计算输入图像块的长宽比,然后判断该块是文本或非文本的长宽比计算步骤。
8.如权利要求1所述的识别文本块的方法,其特征在于还包含在直方图计算步骤之前,计算边界上的象素与输入图像块的总象素的比值,即边缘密度,然后判断该块是文本或非文本的边缘密度计算步骤。
9.如权利要求1所述的识别文本块的方法,其特征在于所述二值化步骤中,仅使所述输入图像块的边缘二值化。
10.如权利要求1所述的识别文本块的方法,其特征在于还包含:
为文本块定义第一组限制条件的步骤,所述限制条件包括用于与文本块之间的间距进行比较的第一间距限制值;
寻找文本块的步骤;
对于在寻找文本块的所述步骤中找到的短块,计算包括所述短块所在的那一行在内的至少两个连续文本行的每两个相邻文本行之间的行间距的至少一个值,和计算在所述短文本块所在的同一文本行内,在至少三个连续文本块的每两个相邻文本块之间间距的至少两个值的步骤;
将行间距的所述值和间距的所述值与所述第一间距限制值进行比较的步骤;
根据所述比较步骤的结果,判断局部文本编辑方向的步骤,其中如果行间距的所述值和间距的所述值都大于所述第一间距限制值,那么所述文本块不能用于判断局部文本编辑方向,返回寻找另一文本块的步骤,如果行间距的所述至少一个值的最小值小于间距的所述至少两个值的最小值,那么局部文本编辑方向判断为水平的,如果行间距的所述至少一个值的最小值大于间距的所述至少两个值的最小值,那么局部文本编辑方向判断为竖直的;和
根据所述局部文本编辑方向合并所选短文本块的相邻块的步骤。
11.如权利要求10所述的识别文本块的方法,其特征在于所述第一组限制条件包括用于与块宽度和块高度中较短者进行比较的第一短限制值和用于与块宽度和块高度中较长者进行比较的第一长限制值;文本块的第一长宽比,且寻找文本块的所述步骤包含利用这些限制条件来判断文本块是否是短块。
12.如权利要求10所述的识别文本块的方法,其特征在于还包含:
为文本块定义第二组限制条件的步骤,所述条件包括用于与文本块之间的间距进行比较的第二间距限制值,所述第二间距限制值小于所述第一间距限制值;和
重复从寻找文本块的步骤到合并相邻块的步骤的其他步骤。
13.如权利要求12所述的识别文本块的方法,其特征在于所述第二组限制条件包括用于与块宽度和块高度中较短者进行比较的第二短限制值、用于与块宽度和块高度中较长者进行比较的第二长限制值,和第二长宽比,它们分别小于所述第一短限制值,第一长限制值和第一长宽比。
14.如权利要求12所述的识别文本块的方法,其特征在于还包含:
为文本块定义第三组限制条件的步骤,所述条件包括用于与文本块之间的间距进行比较的第三间距限制值,所述第三间距限制值大于所述第一间距限制值;
重复从寻找文本块的步骤到合并相邻块的步骤的其他步骤。
15.如权利要求14所述的识别文本块的方法,其特征在于所述第三组限制条件包括用于与块宽度和块高度中较短者进行比较的第三短限制值、用于与块宽度和块高度中较长者进行比较的第三长限制值,和第三长宽比,它们分别小于所述第二短限制值、第二长限制值和第二长宽比。
16.一种从输入的图像块识别反白字符的方法,包含:
使用图像块边界上的平均灰度来表示图像块背景灰度的灰度平均步骤;
计算图像块的直方图的直方图计算步骤;
从直方图计算用来表示图像块背景和前景的两个灰度值的灰度计算步骤;
比较在灰度计算步骤中计算出的这两个值各自与灰度平均步骤中计算出的平均灰度之间的距离,从而识别反白字符的比较步骤,
其中,如果平均灰度更接近所述两个灰度值中较小的灰度值,那么图像块为反白字符;否则,图像块为非反白字符。
17.如权利要求16所述的识别反白字符的方法,其特征在于所述灰度平均步骤包含平均图像块中象素和从图像块的边界扩展至少一个象素的所有象素的总灰度。
18.如权利要求16所述的识别反白字符的方法,其特征在于所述灰度计算步骤包含使用Otsu算法计算阈值,并计算灰度小于所述阈值的象素的平均灰度,和灰度大于所述阈值的象素的平均灰度,所述平均灰度分别表示图像块的背景和前景。
19.一种从输入图像块识别文本块的设备,包含:
输入装置,用于输入图像块;
直方图计算装置,用于计算所述图像块边缘附近的黑色象素的直方图和白色象素的直方图;
二值化阈值计算装置,用于根据黑色和白色象素的所述直方图计算图像块边界上的黑色象素阈值;
二值化装置,用于使用由所述二值化阈值计算装置输出的所述阈值使所述输入图像块二值化;和
判断装置,用于根据所述二值化装置的输出,判断二值化图像的边界上的象素是否几乎是白色或黑色或其他,从而判断图像块的类型是文本、反白文本或非文本。
20.如权利要求19所述的从输入图像块识别文本块的设备,其特征在于所述二值化阈值计算装置计算图像块中黑色象素的阈值范围,所述二值化装置还分别使用所述阈值范围内的最小阈值nMinThr和最大阈值nMaxThr使所述输入图像块二值化。
21.如权利要求20所述的从输入图像块识别文本块的设备,其特征在于所述判断装置根据所述最小阈值nMinThr和最大阈值nMaxThr计算边界上黑色象素的最小黑色象素密度(MinBlackDensity)和最大黑色象素密度MaxBlackDensity,然后根据所述黑色象素密度判断图像块类型。
22.如权利要求20所述的从输入图像块识别文本块的设备,其特征在于所述二值化阈值计算装置将黑色象素和白色象素的直方图组合成组合的直方图,其中
如果黑色象素的直方图和白色象素的直方图不交叉,则黑色象素的直方图的最大灰度选择为最小阈值nMinThr,白色象素的直方图的最小灰度选择为最大阈值nMaxThr,
如果黑色象素的直方图和白色象素的直方图交叉,则A与C的比值落入[0.5,0.7]内的任何一种灰度选择为最小阈值nMinThr,B与C的比值落入[0.75,0.95]内的任何一种灰度选择为最大阈值nMaxThr,其中C是图像块中边缘附近的黑色象素总数,A是图像块中边缘附近的灰度小于最小阈值nMinThr的黑色象素数目,B是图像块中边缘附近的灰度小于最大阈值nMaxThr的黑色象素数目。
23.一种从输入图像块识别反白字符的设备,该设备包含:
灰度平均装置,用于利用图像块边界上的平均灰度来表示图像块背景的灰度;
直方图计算装置,用于计算图像块的直方图;
灰度计算装置,用于从直方图中计算用来表示图像块的背景和前景的两个灰度值;
比较装置,用于比较灰度计算装置所输出的这两个灰度值各自与灰度平均装置所输出的平均灰度之间的距离,从而识别反白字符,
其中,如果平均灰度更接近所述两个灰度值中较小的灰度值,那么图像块为反白字符;否则,图像块为非反白字符。
24.如权利要求23所述的从输入图像块识别反白字符的设备,其特征在于所述灰度平均装置平均图像块中象素和从图像块的边界扩展至少一个象素的所有象素的总灰度。
25.如权利要求23所述的从输入图像块识别反白字符的设备,其特征在于所述灰度计算装置使用Otsu算法计算阈值,并计算其灰度小于所述阈值的象素的平均灰度、和其灰度大于阈值的象素的平均灰度,所述平均灰度分别表示图像块的背景和前景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410082123 CN1790377B (zh) | 2004-12-17 | 2004-12-17 | 反白字符识别的块分类方法和文本行生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410082123 CN1790377B (zh) | 2004-12-17 | 2004-12-17 | 反白字符识别的块分类方法和文本行生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1790377A CN1790377A (zh) | 2006-06-21 |
CN1790377B true CN1790377B (zh) | 2010-08-18 |
Family
ID=36788214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410082123 Expired - Fee Related CN1790377B (zh) | 2004-12-17 | 2004-12-17 | 反白字符识别的块分类方法和文本行生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1790377B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101282030B1 (ko) * | 2007-01-26 | 2013-07-04 | 삼성전자주식회사 | 데이터의 보안 전송을 위한 화상형성장치 및 그 전송방법 |
CN102129562B (zh) * | 2010-01-15 | 2014-07-09 | 富士通株式会社 | 图标识别方法和装置 |
CN102096906B (zh) * | 2010-12-13 | 2012-11-28 | 汉王科技股份有限公司 | 用于全景二值图像的反白处理方法和装置 |
CN102411707A (zh) * | 2011-10-31 | 2012-04-11 | 世纪龙信息网络有限责任公司 | 一种图片中文本的识别方法及识别装置 |
CN102496020B (zh) * | 2011-10-31 | 2013-07-31 | 天津大学 | 基于累积边缘点可视灰度范围直方图的图像二值化方法 |
JP5730274B2 (ja) * | 2012-11-27 | 2015-06-03 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
CN103034855A (zh) * | 2012-12-05 | 2013-04-10 | 曙光信息产业(北京)有限公司 | 在图像中识别字符区域的方法 |
CN106780535A (zh) * | 2016-12-21 | 2017-05-31 | 潘小胜 | 一种灰度图像处理方法 |
-
2004
- 2004-12-17 CN CN 200410082123 patent/CN1790377B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1790377A (zh) | 2006-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pal et al. | Touching numeral segmentation using water reservoir concept | |
US8587685B2 (en) | Method and apparatus for retrieving label | |
CN102509383B (zh) | 一种基于特征检测及模板匹配的混合号码识别方法 | |
CN102496013B (zh) | 用于脱机手写汉字识别的汉字字符切分方法 | |
US9158986B2 (en) | Character segmentation device and character segmentation method | |
US8401299B2 (en) | Character line recognition method and character line recognition device | |
KR20110056380A (ko) | 이미지 및 비디오 ocr을 위한 텍스트 로컬화 | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
CN101122953A (zh) | 一种图片文字分割的方法 | |
Li et al. | Fast and effective text detection | |
CN112818952A (zh) | 煤岩分界线的识别方法、装置及电子设备 | |
CN1790377B (zh) | 反白字符识别的块分类方法和文本行生成方法 | |
Roy Chowdhury et al. | Text detection of two major Indian scripts in natural scene images | |
CN107766854A (zh) | 一种基于模板匹配实现快速页码识别的方法 | |
KR100315531B1 (ko) | 패턴추출장치 | |
KR20090055087A (ko) | Ocr을 위한 문서 영상의 자동 평가 방법 및 시스템 | |
BinMakhashen et al. | Historical document layout analysis using anisotropic diffusion and geometric features | |
Zhan et al. | A robust split-and-merge text segmentation approach for images | |
Song et al. | Text region extraction and text segmentation on camera-captured document style images | |
KR20010015025A (ko) | 문자인식장치의 문자추출방법 및 장치 | |
Lue et al. | A novel character segmentation method for text images captured by cameras | |
CN107705417A (zh) | 纸币版本的识别方法、装置、金融设备及存储介质 | |
Song et al. | A robust statistic method for classifying color polarity of video text | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN111046770A (zh) | 一种照片档案人物自动标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100818 Termination date: 20161217 |
|
CF01 | Termination of patent right due to non-payment of annual fee |