CN102592126B - 用于二值化扫描文档图像的方法 - Google Patents

用于二值化扫描文档图像的方法 Download PDF

Info

Publication number
CN102592126B
CN102592126B CN201110359326.XA CN201110359326A CN102592126B CN 102592126 B CN102592126 B CN 102592126B CN 201110359326 A CN201110359326 A CN 201110359326A CN 102592126 B CN102592126 B CN 102592126B
Authority
CN
China
Prior art keywords
character
halftone text
halftone
picture
binaryzation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110359326.XA
Other languages
English (en)
Other versions
CN102592126A (zh
Inventor
俞颂阳
明伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of CN102592126A publication Critical patent/CN102592126A/zh
Application granted granted Critical
Publication of CN102592126B publication Critical patent/CN102592126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/405Halftoning, i.e. converting the picture signal of a continuous-tone original into a corresponding signal showing only two levels

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Abstract

提供了一种用于二值化扫描文档图像的方法。该文档图像被初始地二值化并且从初始的二值图像提取连通的图像部分作为文字字符。基于其拓扑特征的分析将每个文字字符分类为半色调文字字符或者非半色调文字字符。拓扑特征可以是文字字符的欧拉数;欧拉数小于‑2的文字字符被分类为半色调文字。然后将灰度文档图像化分为仅包含半色调文字字符的半色调文字区域和非半色调文字区域。每个区域使用它自己的像素值统计进行二值化。这消除了黑色文字对用于二值化半色调文字的阈值的影响。区域的二值图被组合以生成最终的二值图。

Description

用于二值化扫描文档图像的方法
技术领域
本公开涉及用于二值化扫描文档图像的方法和装置,并且具体地,涉及用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法和装置。
背景技术
随着计算机技术和因特网的发展,电子文档因为它相比基于纸的文档的优势而变得越来越流行,比如易于储存、易于查找和检索、快速传输、以及环境友好。在过去,基于纸的文档已经占主要地位很长时间并且在这些年来已经生成了大量基于纸的文档。可以使用扫描仪将基于纸的文档转换成电子文档。对于包含文字的文档,还期望能将扫描的文档图像转换成文字用以文字查找和其他目的。
已经开发出了自动文档分析系统以将扫描文档图像转换为可查找的电子文档。这样的系统通常包括三个主要的组件,也就是二值化组件、分割组件、和光学字符识别(OCR)组件。第一组件,二值化组件,将前景(文字、图片、线条画等)与背景分离。二值化组件将彩色或者灰度图像转换为其中每个像素具有0或者1的值的二值图像。二值化是重要的步骤,因为接下来的分割和识别组件依赖高质量的二值化图像。良好的二值化结果不仅可以减少计算负荷和简化接下来的分析,并且可以提高自动文档分析系统的整体性能。
在传统的方法中,一般全局地或者局部地执行二值化。全局二值化方法使用一个计算出来的阈值用于整个扫描图像来将多比特像素值转换成二值像素值。在该阈值以上的像素值被转换成1(或者0)而在该阈值以下的像素值被转换成0(或者1)。局部二值化方法使用从局部区域计算出的适合的统计值作为阈值用于局部区域的二值化。
全局二值化方法的例子可以在以下文献中找到:N.Otsu,“A ThresholdSelection Method from Gray-Level Histograms”,IEEE Transactions on Systems,Man,and Cybernetics,Vol.9,No.1,1979,pp.62-66(在下文中称为“Otsu”);A.Rosenfield,R.C.Smith,“Thresholding using Relaxation”,IEEE Transactions onPattern Analysis and Machine Intelligence,Vol.3,No.5,1981,pp.598-606;以及V.A.Shapiro,P.K.Veleva,V.S.Sgurev,“An Adaptive Method for ImageThresholding”,Proceedings of the 11th IAPR International Conference onPattern Recognition,1992,pp.696-699。局部二值化方法的例子可以在以下文献中找到:W.Niblack,“An introduction to Image Processing”,Prentice-Hall,EnglewoodCliffs,1986,pp.115-116;J.Sauvola,M.Pietikainen,“Adaptive document imagebinarization”,Pattern Recognition,Vol.33,2000,pp.225-236(在下文中称为“Sauvola等人”);以及I.Kim,D.Jung,R.Park,Document image binarization based ontopographic analysis using a water flow model,Pattern Recognition Vol.35,2002,pp.265–277。
发明内容
因此,本发明提供了充分避免由于相关技术的限制和缺陷所引起的一个或多个问题的二值化方法。
本发明的目的是根据包含半色调文字和非半色调文字二者的扫描灰度图像来产生高质量的二值图像。
本发明的其它特征和优势将在接下来的说明书中阐述并且通过说明书将部分地明白,或者可以通过本发明的实践学到。本发明的目的和优势将通过在书写的说明书和权利要求书以及附图中具体指出的结构来实现和获得。
为获得这些和/或其它目的,如具体和广泛描述地,本发明提供一种在数据处理装置中实现的用于二值化通过扫描基于纸的文档而生成的灰度文档图像的方法,该方法包括以下步骤:a.识别灰度文档图像中的文字字符;b.基于对步骤a中识别出的每个文字字符的拓扑分析,将该文字字符分类为半色调文字字符或者非半色调文字字符,其中步骤b包括以下步骤:对于每个文字字符计算欧拉数;以及如果所述文字字符的欧拉数低于预定值则将该文字字符分类为半色调文字字符,并且如果所述文字字符的欧拉数等于或者大于所述预定值则将该文字字符分类为非半色调文字字符;以及c.使用仅从步骤b中分类出的半色调文字字符所获得的像素值特征来二值化半色调文字字符,其中步骤a包括以下步骤:执行所述灰度文档图像的初始二值化以生成初始二值图像;以及提取所述初始二值图像中的连通的图像部分作为文字字符。
该方法还可以包括:在步骤b之后并且在步骤c之前的步骤d,将灰度文档图像划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域,其中步骤c包括对于每个半色调文字区域使用仅根据在该半色调文字区域中的像素计算出的像素值统计来二值化该半色调文字区域,以生成每个半色调文字区域的二值图。
该方法还可以包括以下步骤:在步骤d之后的步骤e,对于每个非半色调文字区域使用仅根据在该非半色调文字区域中的像素计算出的像素值统计来二值化该非半色调文字区域,以生成每个非半色调文字区域的二值图;以及步骤f,组合在步骤c和e中生成的半色调文字区域的二值图和非半色调文字区域的二值图以生成灰度文档图像的二值图。
在另一方面,本发明提供一种计算机程序和包括计算机可用非瞬态介质(例如存储器或者存储装置)的计算机程序产品,该计算机可用非瞬态介质中嵌入有用于控制数据处理装置的计算机程序),该计算机程序被配置为使得数据处理装置来执行上述方法。
在另一方面,本发明提供一种扫描仪,包括:用于扫描硬拷贝文档以生成灰度文档图像的扫描部分;以及用于处理灰度文档图像以生成灰度文档图像的二值图的数据处理装置,其中的处理包括上面的方法步骤。
可以理解前面的一般性描述和接下来的具体描述都是示例性和说明性的,并且意在提供如权利要求所保护的对于本发明的进一步解释。
附图说明
图1(a)是图示了当纸件文档中相应的文字被打印为黑色文字时文字的扫描图像的放大的示图;
图1(b)是图示了当纸件文档中相应的文字被打印为半色调(halftone)灰色时文字的扫描图像的放大的示图;
图1(c)示意性地图示了包含深(黑色)文字和浅(灰色)文字的一页文档的图像;
图2(a)和图2(b)示意性地图示了根据本发明的第一实施例用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法;
图3示意性地图示了根据本发明的第二实施例用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法;
图4(a)-图4(d)是示出了对于非半色调和半色调文字字符的欧拉数的扫描文档中的文字字符的图像;
图5(a)和图5(b)示出了使用根据本发明第一实施例的方法的二值化结果的部分;
图6(a)和图6(b)示出了使用传统的全局阈值化方法的二值化结果的部分;
图7示意性地图示了包括数据处理装置的扫描仪,在该数据处理装置中可以实现根据本发明的实施例的二值化方法
具体实施方式
本发明的实施例提供了用于二值化通过扫描基于纸的文档所获得的文档图像的改进的方法。在本公开中,术语“基于纸的文档”、“打印的文档”和“硬拷贝文档”可交换使用。这些文档不需要仅在纸上打印;它们可以打印在其他物理介质比如幻灯片(transparency)上。
随着对高质量文字和图片的期望,打印的文档通常以高分辨率进行扫描,比如,经常以600dpi(点数每英寸)或者更高的分辨率。在打印的文档中,灰色或者浅色文字或者图像经常使用半色调(halftone)方法来打印。比如,打印的灰色区域将包含多个墨水或者墨粉的黑点,点的尺寸和/或者密度取决于灰色区域的灰度值。类似地,浅色区域通过打印颜色饱和的点来打印。在本公开中,通过半色调方法打印的文字被称为半色调文字。
当包含半色调文字的打印文档以高分辨率扫描时,具体地,当扫描的像素尺寸比半色调点充分小时,半色调点在扫描图像中通常是可见的。图1(b)是图示了当纸质文档中对应的文字打印为半色调灰色时文字的扫描图像的放大示图。在此图示中,半色调点清晰可见。此外,在半色调文字中的扫描像素有很多灰色像素值。位于半色调点内的像素趋向于具有更深的灰色像素值,而位于相邻半色调点之间区域的像素趋向于具有更浅的灰色或者白色像素值。不同的灰色像素值来自于用于扫描文档的扫描仪的有限的灵敏度或者精确性。
作为对照,图1(a)是图示了当纸质文档中对应的文字打印为黑色文字时文字的扫描图像的放大示图。其中没有可见的半色调点。此外,文字区域内的像素值是黑色值或者接近黑色值。
黑色文字和灰色文字经常共同存在于文档的同一页中。图1(c)示意性地图示了包含黑色文字(由粗实线11示意性地表示)和灰色文字二者的文档页的图像。
在本公开中,当提到像素值时,“黑色值”指的是代表黑色像素的数值而“白色值”指的是代表白色像素的数值。在很多系统中,白色像素具有有像素值255而黑色像素有像素值0。“灰色值”是在黑色值和白色值之间的值。
尽管在这些图示中使用黑色和灰色的文字,在彩色图像中存在同样的效果,其中文字可以被打印为颜色饱满的文字(和黑色文字类似)或者浅彩色文字(和浅灰色文字类似,使用半色调方法)。下面的描述使用黑色作为例子,但是这里描述的方法也适用于彩色文字。
当打印的文档包含黑色文字和半色调文字二者时,传统的二值化方法经常导致对于半色调文字不满意的结果。如前面提到的,传统的二值化方法通常全局地或者局部地执行二值化。无论传统的全局二值化方法还是传统的局部二值化方法都不能产生对于含有半色调文字的扫描图像的满意结果。通常,半色调文字仅构成整个文档图像的一小部分。如前面解释的,由于半色调模式的存在,半色调文字的像素值趋向于为灰色值而非半色调文字的像素值趋向于非常接近黑色值。作为结果,当使用全局阈值方法时,比如在Otsu参考文献中描述的Otsu阈值,计算出的全局阈值趋向于非常接近深色文字的黑色像素值。当使用这样的阈值执行二值化时,在二值化结果中半色调文字经常全部或者部分缺少,因为它们的像素值不满足阈值。即使当使用局部阈值方法时,如果在局部窗口中的文字的主要部分是深色文字,一些半色调文字仍可能缺少。当半色调文字处于更浅色灰度级时(即接近背景值),情况变得更糟。对于半色调文字的较差的二值化结果对于自动化文档分析系统接下来的组件有很严重的不利影响,尤其是OCR组件。
图2(a)示意性图示了根据本发明实施例的用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法。该方法基于文字字符的拓扑特征的分析将半色调文字与非半色调文字分离,并且然后使用它们各自的阈值分别二值化半色调文字和非半色调文字。
首先,扫描文档图像被初始地二值化(步骤S21)。该步骤可以使用任意适当的局部或者全局原文的二值化方法,包括传统的方法。通常,局部二值化包括:将图像划分为多个小的不重叠的块、计算每个块的阈值、并且使用阈值对块进行二值化。在一个实施例中,使用在Sauvola等人中描述的方法执行初始二值化。通过步骤S21生成初始二值图像。
然后提取初始二值图像中的连通的图像部分(步骤S22)。在二值图像中,连通的图像部分是相同像素值(例如黑色)的像素的连通的组。用于提取连通的图像部分的方法是一般公知的;在该步骤中可以采用任意适合的算法。在该步骤中提取的每个连通的图像部分潜在地是文字字符。步骤S21和S22共同地可以被称为识别扫描文档图像中的文字字符的步骤。
然后,每个连通的图像部分(文字字符)基于它的拓扑特征的分析被分类为半色调文字字符或者非半色调文字字符(步骤S23和S24)。因为该半色调处理,对于半色调文字的连通的图像部分比对于非半色调文字的连通的图片组分包含更多的孔。孔是被连通的图像部分的黑色像素围绕的白色像素的区域。在优选的实施例中,使用该特征来分类每个连通的图像部分(字符)。在具体的实施例中,使用欧拉数(Euler number)作为用于分类半色调文字字符和非半色调文字字符的标准。欧拉数(整数)是图像拓扑的测量标准。定义为
E=C–H,
其中E是欧拉数,C是图像中连通的图像部分的数量以及H是孔的数量。文字字符(例如英文字母和阿拉伯数字)通常是1、0或者-1。例如,如图4(a)-4(c)所示,字符“C”具有欧拉数1,因为它具有一个连通的图像部分并且没有孔;字符“A”具有欧拉数0,因为它具有一个连通的图像部分和一个孔;并且数字“8”具有欧拉数-1,因为它有一个连通的图像部分和两个孔。因为半色调文字通常包含很多孔,半色调文字字符(包括数字)的欧拉数通常远小于-1。比如,图4中的半色调字母“N”具有欧拉数-43。同样地,欧拉数对于半色调文字检测是很好的测量标准。
在步骤S23中,计算对于每个检测到的文字字符(即连通的图像部分)的欧拉数。可以使用任意适合的算法来计算欧拉数。在步骤S24中,基于其欧拉数将每个连通的图像部分分类为半色调文字字符或者非半色调文字字符。在一个实现中,如果连通的图像部分具有低于预定义值的欧拉数,如-2,则连通的图像部分被分类为半色调文字字符。否则,它就被分类为非半色调文字字符。
更一般地,步骤S23是分析文字字符的拓扑特征的步骤,并且步骤S24是基于拓扑特征分类文字字符的步骤。共同地,步骤S23和S24构成基于拓扑分析将文字字符分类为半色调文字字符或者非半色调文字字符的步骤。
更具体地,步骤S23和S24可以通过如图2(b)所示的判断循环来实现。连通的图像部分(即文字字符)每次处理一个。对于下一个连通的图像部分(步骤S231中的“是”),计算它的欧拉数(步骤S232)。接下来,确定欧拉数是否小于-2(步骤S241)。如果它是(步骤S241中的“是”),文字字符被分类为半色调文字字符(步骤S242)。如果它不是(步骤S241中的“否”),文字字符被分类为非半色调文字字符(步骤S243)。该处理然后确定是否有下一个待处理的连通的图像部分(步骤S231)。如果是(步骤S231中的“是”),重复步骤S232、S241、S242和S243。如果不再有待处理的连通的图像部分(步骤S231中的“否”),处理继续到下一步骤(即到步骤S25)。
应指出图2(b)仅是示例性的实现。在可替换的实现中(图中未示出),提取连通的图像部分的步骤(步骤S22)可以被放在循环内,也就是提取一个连通的图像部分后,计算它的欧拉数并且将它分类为半色调或者非半色调文字字符,并且然后提取下一个连通的图像部分并且重复处理。本领域的技术人员会认识到存在其他适合的实现。
在将文档图像中检测到的文字字符分类为半色调和非半色调文字后,文档图像被划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域(步骤S25)。非半色调文字区域还可能包含其他文档元素比如图形、图片等,如果它们在扫描的文档图像中存在。可能会有单个或者多个半色调文字区域以及单个或者多个非半色调文字区域。在图1(c)中,通过细虚线示意性指示不同的文字区域,该细虚线定义了非半色调文字区域13和半色调文字区域14。
在优选的实施例中,通过将二值形态学生成应用到非半色调文字和/或者半色调文字完成划分步骤S25。形态学是一组广泛的基于形状处理图像的图像处理操作。形态学运算将结构元素应用到输入图像,产生相同尺寸的输出图像。在形态学运算中,在输出图像中的每个像素的值基于在输入图像中的相应像素和它的邻居的比较。通过选择邻居(结构元素)的尺寸和形状,人们可以构成对输入图像中特定形状敏感的形态学运算。最基本的形态学运算是扩张(dilation)和侵蚀(erosion)。在优选的实现中,将二值形态学运算应用到半色调文字以生成半色调文字区域,并且将相同的二值形态学运算应用到非半色调文字以生成非半色调文字区域。可替换地,将二值形态学运算应用到半色调文字以生成半色调文字区域,而图像的其余区域被认为是非半色调文字区域。在优选的实施例中,根据半色调文字字符和非半色调文字字符的宽度和高度分别估计在扩张操作中使用的结构元素参数。它们可以被选为文字字符的平均宽度和平均高度预定义的倍数。
然后,对于每个半色调文字区域和每个非半色调文字区域,对于最初的扫描文档图像执行局部阈值化或者全局阈值化方法以对图像进行二值化来生成对于区域的最终的二值化结果(二值图)(步骤S26)。换句话说,使用从仅在该区域中的像素所获得的像素值特征来二值化每个区域。具体地,在每个半色调文字区域,使用仅在该区域中的半色调文字的像素值特征来计算用于二值化半色调文字的阈值。
在优选的实现中,使用在Otsu参考文献中描述的传统方法来执行对于每个半色调文字区域的阈值化。因为图像已经被划分为半色调文字区域和非半色调文字区域,甚至应用于半色调文字区域的传统阈值化方法也会产生对于半色调文字满意的二值化结果。这是因为半色调区域文字区域仅包含半色调文字并且通过传统阈值化方法计算出的阈值不会被非半色调文字所影响。在优选的实现中,使用在Otsu参考文献中描述的传统阈值化方法来二值化每个非半色调文字区域。当然,也可以使用其他阈值化方法来二值化半色调文字区域和非半色调文字区域。
在对区域进行二值化之后,多个区域的二值图被组合以生成整个扫描文档图像的二值图(步骤S27)。
图3示意性图示了根据本发明的第二实施例用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法。在第二实施例中,步骤S31到S34和图2(a)和2(b)中所示出的第一实施例中的步骤S21到S24相同。
在通过分类步骤S34识别出大多数半色调文字字符后,对半色调文字的像素值统计,比如平均像素值、最小像素值和最大像素值进行估计(步骤S35)。需要指出的是,出于这个目的,不需要识别出所有的半色调文字的字符;丢失少数半色调字符不会导致估计的像素值估计的重大改变。接下来,使用半色调文字的像素值统计对扫描文档图像进行二值化以生成第一二值图像(步骤S36)。在优选的实施例中,具有落在最小和最大像素值之间的像素值的像素被分配一个二进制值(例如黑色),而具有落在范围之外的像素值的像素被分配其他二进制值(例如白色)。得到的第一二值图像包含初始扫描文档的半色调文字的二值化图像。第一二值图像还包含与在初始扫描文档中的作为非半色调文字的某些灰色像素、特别是黑色文字字符的边缘处的像素相对应的其他图像。
接下来,再次对扫描文档图像进行二值化以生成第二二值图像(步骤S37)。在该步骤中可以使用任意适当的二值化方法,比如传统的局部或者全局二值化方法。优选地,在该二值化步骤之前,修改初始扫描文档图像以将在S36中获得的半色调文字字符的像素值设置为背景值(例如白色)。作为结果,在S36中得到的半色调文字字符将不会出现在第二二值图像中。其原因是为了最小化在步骤S37中半色调文字对非半色调文字的阈值的计算的影响。接下来,第一和第二二值图像被组合(通过按位与(AND)运算)以生成最终的二值图像。因为第一二值图像包含二值化的半色调文字而第二二值图像包含二值化的非半色调文字,最终的二值图像可以是对于半色调文字和非半色调文字二者都满意的二值化结果。
可以看到在上面描述的两种二值化方法中(第一和第二实施例),将文字字符分类为半色调文字字符和非半色调文字字符,接着使用仅从半色调文字获得的像素值特征对半色调文字进行二值化。与传统方法(比如基于全局直方图的阈值化方法)相比,根据本发明实施例的二值化方法对包含半色调文字和非半色调文字二者的扫描文档图像产生更好地二值化结果。
发明人测试了第一实施例在包含半色调文字和非半色调文字的文档图像上的具体实现。在图5(a)和5(b)中示出与图1(a)和1(b)中的采样图像相对应的二值化结果的部分。
对于初始的二值化(步骤S21),在测试中使用在Sauvola等人中描述的传统方法。具体地,扫描文档图像被划分为64x64的像素块,并且通过下面的公式计算每个块的阈值:
T=m*(1+k*(s/R-1));
这里T是对块计算出的阈值,m是块的平均像素值,s是块的像素值的标准偏差,常数k是0.2,以及常数R是128。在步骤S23中使用欧拉数作为拓扑特征,并且在步骤S24中将欧拉数小于-2的连通的图像部分分类为半色调文字。
在步骤S25中,向半色调文字应用扩张运算以生成半色调文字区域,并且向非半色调文字应用扩张运算以生成非半色调文字区域。对于半色调文字,在扩张运算中使用的结构元素的宽度和高度都是半色调文字的平均高度和平均宽度的四倍。对于非半色调文字,结构元素的宽和高都是非半色调文字的平均高度和平均宽度的两倍。
在最后的二值化步骤S26,使用Otsu方法分别对半色调文字区域和非半色调区域进行二值化。
为了比较,发明人应用传统的Otsu的方法来对相同的测试文档进行二值化。在图6(a)和6(b)中示出了与图1(a)和1(b)中的采样图像相对应的二值化结果的部分。通过视觉比较,可以看出对于黑色文字的二值化结果(对于半色调文字,使用两种技术的图5(a)和6(a))的结果是相当的,使用上面描述的方法的结果(图5(b))明显好于使用传统全局阈值方法的结果(图6(b))。可以看出在图6(b)中,文字字符的连通性没有被适当地保留并且在二值化的文字字符中有很多孔。在图5(b)中,文字字符的连通性被保存的明显更好,并且在二值化的文字字符中有非常少的孔或者没有孔。
发明人还将两个二值化结果输入到AdobeTM AcrobatTM 9Pro的OCR文字识别功能中。当将全局阈值方法的二值化结果供给OCR功能时,仅正确识别出少于57%的半色调文字字符。当使用上面描述的方法的二值化结果供给OCR功能时,正确识别出99%的半色调文字字符。这证明良好的二值化结果可以提高包括OCR组件的自动文档分析系统的性能。
发明人还测试了对于包含半色调文字和非半色调文字二者的文档图像的第二实施例的实现。二值化结果示出了该实现优于上面描述的传统的Otsu的方法,但是不如第一实施例的实现令人满意。因此,发明人目前认为第一实施例是实现本发明的最佳模式。
上面描述的方法可以在如图7中所示出的包括处理器、存储器(例如RAM)和用于存储程序的存储装置(例如ROM)的数据处理装置中实现。数据处理装置可以是独立的计算机,或者可以是还包括用于扫描硬拷贝文档的扫描部分的扫描仪(包括多功能打印机-扫描仪-复印机设备)的一部分(见图7)。数据处理装置通过执行存储在存储器中的计算机程序的处理器来实现方法。数据处理装置将扫描的灰度图像作为输入并且生成二值图像作为输出。在一方面,本发明是通过数据处理装置实现的方法。在另一方面,本发明是嵌入到计算机可用非瞬态介质中的计算机程序产品,该计算机可用非瞬态介质中嵌入有用于控制数据处理装置的计算机可读程序代码。在另一方面,本发明嵌入到比如计算机或者扫描仪这样的数据处理装置中。具体地,本发明可以嵌入在扫描仪中,该扫描仪包括用于扫描硬拷贝文档以生成灰度扫描图像的扫描部分,以及用于二值化扫描文档图像以生成二值文档图像的数据处理装置。
本领域技术人员将明白,可以对本发明的二值化方法和装置进行多种修改和变形而不脱离本发明的精神或范围。因而,本发明的旨在覆盖落入所附权利要求及其等效方案的范围内的修改和变形。

Claims (7)

1.一种在数据处理装置中实现的用于二值化通过扫描基于纸的文档而生成的灰度文档图像的方法,所述方法包括以下步骤:
a.识别所述灰度文档图像中的文字字符,其中步骤a包括以下步骤:
执行所述灰度文档图像的初始二值化以生成初始二值图像;以及
提取所述初始二值图像中的连通的图像部分作为文字字符;
b.基于对步骤a中识别出的每个文字字符的拓扑分析,将所述文字字符分类为半色调文字字符或者非半色调文字字符,其中步骤b包括以下步骤:
对于每个文字字符计算欧拉数;以及
如果所述文字字符的欧拉数低于预定值则将该文字字符分类为半色调文字字符,并且如果所述文字字符的欧拉数等于或者大于所述预定值则将该文字字符分类为非半色调文字字符;以及
c.使用仅从步骤b中分类出的半色调文字字符所获得的像素值特征来二值化半色调文字字符。
2.根据权利要求1所述的方法,还包括:
在步骤b之后并且在步骤c之前的步骤d,将所述灰度文档图像划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域,其中步骤c包括对于每个半色调文字区域使用仅根据在该半色调文字区域中的像素计算出的像素值统计来二值化该半色调文字区域,以生成每个半色调文字区域的二值图。
3.根据权利要求2所述的方法,还包括:
在步骤d之后的步骤e,对于每个非半色调文字区域使用仅根据在该非半色调文字区域中的像素计算出的像素值统计来二值化该非半色调文字区域,以生成每个非半色调文字区域的二值图。
4.根据权利要求3所述的方法,还包括:
步骤f,组合在步骤c和e中生成的所述半色调文字区域的二值图和所述非半色调文字区域的二值图以生成所述灰度文档图像的二值图。
5.根据权利要求1-4任一所述的方法,其中步骤c包括以下步骤:
c1.根据在步骤b中分类出的所述半色调文字字符的至少一些来计算像素值统计,所述像素值统计包括平均像素值、最小像素值和最大像素值;以及
c2.使用在步骤c1中计算出的所述像素值统计来二值化所述文档图像以生成第一二值图像;
其中所述方法还包括以下步骤:
二值化所述文档图像以生成第二二值图像;以及
使用按位与运算组合所述第一和第二二值图像。
6.一种扫描仪,包括:
用于扫描硬拷贝文档以生成灰度文档图像的扫描部分;以及用于处理所述灰度文档图像以生成所述灰度文档图像的二值图的数据处理装置,
其中所述灰度文档图像的处理包括以下步骤:a.识别所述灰度文档图像中的文字字符,b.基于对步骤a中识别出的每个文字字符的拓扑分析,将所述文字字符分类为半色调文字字符或者非半色调文字字符,以及c.使用仅从步骤b中分类出的半色调文字字符所获得的像素值特征来二值化半色调文字字符,
其中步骤a包括以下步骤:
执行所述灰度文档图像的初始二值化以生成初始二值图像;以及
提取所述初始二值图像中的连通的图像部分作为文字字符,
其中步骤b包括以下步骤:对于每个文字字符计算欧拉数;以及如果所述文字字符的欧拉数低于预定值则将该文字字符分类为半色调文字字符,并且如果所述文字字符的欧拉数等于或者大于所述预定值则将该文字字符分类为非半色调文字字符。
7.一种扫描仪,包括:
用于扫描硬拷贝文档以生成灰度文档图像的扫描部分;以及用于处理所述灰度文档图像以生成所述灰度文档图像的二值图的数据处理装置,
其中所述灰度文档图像的处理包括以下步骤:a.识别所述灰度文档图像中的文字字符,b.基于对步骤a中识别出的每个文字字符的拓扑分析,将所述文字字符分类为半色调文字字符或者非半色调文字字符,以及c.使用仅从步骤b中分类出的半色调文字字符所获得的像素值特征来二值化半色调文字字符,
其中步骤a包括以下步骤:执行所述灰度文档图像的初始二值化以生成初始二值图像;以及提取所述初始二值图像中的连通的图像部分作为文字字符,
其中步骤b包括以下步骤:对于每个文字字符计算欧拉数;以及如果所述文字字符的欧拉数低于预定值则将该文字字符分类为半色调文字字符,并且如果所述文字字符的欧拉数等于或者大于所述预定值则将该文字字符分类为非半色调文字字符,
其中所述处理还包括:在步骤b之后并且在步骤c之前的步骤d,将所述灰度文档图像划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域,其中步骤c包括对于每个半色调文字区域使用仅根据在该半色调文字区域中的像素计算出的像素值统计来二值化该半色调文字区域,以生成每个半色调文字区域的二值图,在步骤d之后的步骤e,对于每个非半色调文字区域使用仅根据在该非半色调文字区域中的像素计算出的像素值统计来二值化该非半色调文字区域,以生成每个非半色调文字区域的二值图,以及步骤f,组合在步骤c和e中生成的所述半色调文字区域的二值图和所述非半色调文字区域的二值图以生成二值图。
CN201110359326.XA 2010-11-15 2011-11-14 用于二值化扫描文档图像的方法 Active CN102592126B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/946,801 2010-11-15
US12/946,801 US8947736B2 (en) 2010-11-15 2010-11-15 Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern

Publications (2)

Publication Number Publication Date
CN102592126A CN102592126A (zh) 2012-07-18
CN102592126B true CN102592126B (zh) 2017-05-31

Family

ID=46047512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110359326.XA Active CN102592126B (zh) 2010-11-15 2011-11-14 用于二值化扫描文档图像的方法

Country Status (3)

Country Link
US (1) US8947736B2 (zh)
JP (1) JP5624004B2 (zh)
CN (1) CN102592126B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331670B2 (en) * 2011-03-22 2012-12-11 Konica Minolta Laboratory U.S.A., Inc. Method of detection document alteration by comparing characters using shape features of characters
US9319556B2 (en) 2011-08-31 2016-04-19 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for authenticating printed documents that contains both dark and halftone text
US9842281B2 (en) * 2014-06-05 2017-12-12 Xerox Corporation System for automated text and halftone segmentation
CN106033528A (zh) * 2015-03-09 2016-10-19 富士通株式会社 从彩色文档图像中提取特定区域的方法和设备
CN105472392B (zh) * 2015-12-11 2018-11-20 西安万像电子科技有限公司 基于渐进式文字块压缩的屏幕视频编解码方法及编解码器
CN105721738B (zh) * 2016-01-15 2018-05-01 天津大学 一种彩色扫描文档图像预处理方法
US9715624B1 (en) * 2016-03-29 2017-07-25 Konica Minolta Laboratory U.S.A., Inc. Document image segmentation based on pixel classification
US10460219B2 (en) 2016-03-31 2019-10-29 Hewlett-Packard Development Company, L.P. Generating an object map from a plurality of binary images
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images
US9965695B1 (en) * 2016-12-30 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Document image binarization method based on content type separation
US10922801B2 (en) 2017-07-19 2021-02-16 Lockheed Martin Corporation Channel-based binarization of color
CN107644391B (zh) * 2017-09-18 2019-11-26 北京邮电大学 一种用于打印文档溯源的数字水印处理方法及装置
US10909406B2 (en) * 2018-01-08 2021-02-02 Newgen Software Technologies Limited Image processing system and method
CN110032348B (zh) * 2019-03-21 2022-05-24 北京空间飞行器总体设计部 一种字符显示方法、装置、介质
EP3966730A2 (en) * 2019-05-08 2022-03-16 Vrije Universiteit Brussel Computer implemented method for segmenting a binarized document
US11941794B2 (en) * 2019-08-19 2024-03-26 Current Lighting Solutions, Llc Commissioning of lighting system aided by augmented reality
CN110992387B (zh) * 2019-11-08 2022-06-10 浪潮电子信息产业股份有限公司 一种图像处理方法、装置及电子设备和存储介质
CN113362361B (zh) * 2021-07-20 2023-09-05 辽宁师范大学 形态学先验约束的甲骨文字检测的图像数据集构建方法
CN116469111B (zh) * 2023-06-08 2023-09-15 江西师范大学 一种文字生成模型训练方法及目标文字生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701807A (en) * 1983-09-22 1987-10-20 Canon Kabushiki Kaisha Method and apparatus for processing an image
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
CN101527775A (zh) * 2008-03-04 2009-09-09 夏普株式会社 图像处理装置、图像处理方法以及图像形成装置
CN101567049A (zh) * 2009-05-26 2009-10-28 西安交通大学 一种半色调文档图像的噪声处理方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3706071A (en) * 1970-06-22 1972-12-12 Information Int Inc Binary image processor
JPS6488690A (en) * 1987-09-29 1989-04-03 Toshiba Corp Euler number calculating circuit
US5131049A (en) 1989-12-08 1992-07-14 Xerox Corporation Identification, characterization, and segmentation of halftone or stippled regions of binary images by growing a seed to a clipping mask
KR910020571A (ko) * 1990-05-21 1991-12-20 다카도리 수나오 데이터 처리장치
JPH06231306A (ja) 1993-02-04 1994-08-19 Matsushita Electric Ind Co Ltd 文字認識装置
JP3313447B2 (ja) 1993-03-19 2002-08-12 株式会社リコー 画像処理装置
US5974195A (en) * 1994-10-14 1999-10-26 Canon Kabushiki Kaisha Image processing apparatus and method
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
US5835638A (en) * 1996-05-30 1998-11-10 Xerox Corporation Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols
JPH10222602A (ja) * 1997-01-31 1998-08-21 Oki Electric Ind Co Ltd 光学式文字読取装置
US6266154B1 (en) 1998-05-21 2001-07-24 Oak Technology, Inc. Grayscale enhancement system and method
JP3639452B2 (ja) * 1999-02-12 2005-04-20 シャープ株式会社 画像処理装置
JP2000350021A (ja) * 1999-06-04 2000-12-15 Ricoh Co Ltd デジタル画像処理装置
US7239430B2 (en) 2002-12-12 2007-07-03 Xerox Corporation Binary halftone detection
US7453604B2 (en) * 2003-06-30 2008-11-18 Xerox Corporation Systems and methods for estimating an image marking process using scanned image attributes
JP4706187B2 (ja) 2004-05-12 2011-06-22 パナソニック株式会社 文字認識装置およびその文字認識方法
US7260276B2 (en) * 2004-06-30 2007-08-21 Sharp Laboratories Of America, Inc. Methods and systems for complexity estimation and complexity-based selection
JP4137890B2 (ja) * 2005-01-21 2008-08-20 シャープ株式会社 画像処理装置、画像形成装置、画像読取処理装置、画像処理方法、画像処理プログラムおよびコンピュータ読み取り可能な記録媒体
US7684633B2 (en) * 2005-06-28 2010-03-23 Xerox Corporation System and method for image file size control in scanning services
JP4139834B2 (ja) * 2005-08-31 2008-08-27 シャープ株式会社 画像処理装置、画像形成装置、画像読取装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US8068684B2 (en) 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
US8155437B2 (en) * 2007-09-07 2012-04-10 CVISION Technologies, Inc. Perceptually lossless color compression

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701807A (en) * 1983-09-22 1987-10-20 Canon Kabushiki Kaisha Method and apparatus for processing an image
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
CN101527775A (zh) * 2008-03-04 2009-09-09 夏普株式会社 图像处理装置、图像处理方法以及图像形成装置
CN101567049A (zh) * 2009-05-26 2009-10-28 西安交通大学 一种半色调文档图像的噪声处理方法

Also Published As

Publication number Publication date
CN102592126A (zh) 2012-07-18
JP2012109941A (ja) 2012-06-07
US8947736B2 (en) 2015-02-03
JP5624004B2 (ja) 2014-11-12
US20120120453A1 (en) 2012-05-17

Similar Documents

Publication Publication Date Title
CN102592126B (zh) 用于二值化扫描文档图像的方法
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
US6778700B2 (en) Method and apparatus for text detection
JP4494563B2 (ja) トークン化によるイメージ分割を用いたイメージ処理方法および装置
CN105095892A (zh) 基于图像处理的学生文档管理系统
CN107093172A (zh) 文字检测方法及系统
US8086040B2 (en) Text representation method and apparatus
EP0949579A2 (en) Multiple size reductions for image segmentation
CN108564079A (zh) 一种便携式字符识别装置及方法
CN110956167A (zh) 一种基于定位字符的分类判别强化分离的方法
CN112308063A (zh) 文字识别装置、翻译笔、图像翻译方法及图像翻译装置
Smith et al. Effect of" ground truth" on image binarization
CN110298236B (zh) 一种基于深度学习的盲文图像自动识别方法和系统
Liu et al. An object attribute thresholding algorithm for document image binarization
Darma et al. Segmentation of balinese script on lontar manuscripts using projection profile
CN111191716A (zh) 一种印刷图片的分类方法及装置
Pati et al. Handwriting Quality Assessment using Structural Features and Support Vector Machines
Rusticus et al. Document domain adaptation with generative adversarial networks
Sharma et al. CDRAMM: Character And Digit Recognition Aided by Mathematical Morphology
Roy et al. An entropy-based binarization method to separate foreground from background in document image processing
Rodrigues et al. Character feature extraction using polygonal projection sweep (contour detection)
Parashar et al. Feature Extraction Based Document Image Processing for OCR
Oza et al. Optical character extraction under different illumination conditions application in real time systems
Siddique et al. An absolute Optical Character Recognition system for Bangla script Utilizing a captured image
Yin et al. Natural scene text recognition based on artificial intelligence machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant