CN100561504C - 文档的自适应二值化方法和设备 - Google Patents
文档的自适应二值化方法和设备 Download PDFInfo
- Publication number
- CN100561504C CN100561504C CNB2005101381321A CN200510138132A CN100561504C CN 100561504 C CN100561504 C CN 100561504C CN B2005101381321 A CNB2005101381321 A CN B2005101381321A CN 200510138132 A CN200510138132 A CN 200510138132A CN 100561504 C CN100561504 C CN 100561504C
- Authority
- CN
- China
- Prior art keywords
- piece
- block
- threshold value
- pixel
- binaryzation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本申请涉及一种对文档进行自适应二值化的方法、设备和存储介质。本发明的对灰度级文档图像进行自适应二值化的方法包括:划分步骤,将灰度级文档划分为块;第一确定步骤,根据块的特征确定所划分的块当中的背景块和文本块;第二确定步骤,确定第一确定步骤所确定的每一个文本块所包括的像素中的背景像素;第一计算步骤,计算表示每一个块的阈值的块阈值面,其中,基于第一确定步骤所确定的背景块中所包括的所有像素计算该背景块的阈值,基于第一确定步骤所确定的文本块中所包括的背景像素计算该文本块的阈值,背景像素是在第二确定步骤中所确定的;以及二值化步骤,使用第一计算步骤所计算的块阈值面来将灰度级文档图像二值化。
Description
技术领域
本发明总体上涉及文档图像处理,尤其涉及光学字符识别(OCR)。更具体地,涉及文档的自适应二值化方法、设备和存储介质。
背景技术
文档图像的二值化是文档图像分析系统比如光学字符识别系统中的第一步。阈值分割操作的输出结果是二值图像,其中的一个状态表示前景对象也就是印刷文本,其互补状态对应于背景。二值化方法可以分为两类:全局和局部阈值分割技术,见.D.Trier and A.K.Jain.Goal-directed evaluation of binarizaton methods,IEEETransactions on Pattern Analysis and MachineIntelligence,17(12):1191-1201,1995,Yibing Yang and Hong Yan.Anadaptive logical method for binarization of degraded document images,Pattern Recognition,33(5):787-807,2000,以及Xiangyun Ye,Mohamed Cheriet,and Ching Y.Suen.Stroke-modelbased characterextraction from gray-level document images,IEEE Transactions onImage Processing,10(8):1152-1161,2001。
在许多情况下,属于背景的像素的灰度级与属于对象的像素的灰度级有相当大的不同。这样阈值分割就是一种简单而有效的将对象与背景分开的工具。在这些情况下,最简单的也是最早期的方法是全局阈值分割技术。最通用的全局阈值分割技术,例如Otsu方法和Kapur方法(见.D.Trier and A.K.Jain.Goal-directed evaluation ofbinarizaton methods,IEEE Transactions on Pattern Analysis andMachine Intelligence,17(12):1191-1201,1995),系基于直方图分析。确定阈值的尺度是最好地将对应于直方图的峰的灰度级分离出来,这些峰分别对应于图像中的不同部分比如背景或者对象的图像像素。
存在各种因素对二值图像的质量有不利的影响。这些因素包括:
1.由于不均匀的照度和不适当的储存,造成背景强度的变化;
2.在文档图像的捕获处理中,由于污点、污渍和阴影而造成非常低的局部对比度;
3.非固定的和与信号有关的噪声;
4.图像的前景区和背景区之间对比度有变化;
5.文档反面的文本的渗透;以及
6.灰度级图像的分辨率低。
所有这些变量使得二值化过程非常复杂。要选择“最好”的二值化方法是非常困难的。OCR方法(以及其它图像处理方法)因而就不那么有效。
理想的自适应阈值分割方法应当是,当应用于照度不均匀的页面时,应当产生与全局阈值分割方法应用于照度非常均匀的页面时一样的结果。每一个像素的亮度被归一化,以对照度的多少进行补偿。之后才判断结果应当是黑还是白。那么问题就是如何确定每一个点处的背景照度。
图1大致上就是基于这种描述。它是一种根据背景照度计算在整个图像上变化的阈值的技术。
首先,该技术将图像分为小一些的块(步骤S102),然后用许多方法计算每一个块的阈值(步骤S104),这些方法例如是:
*计算每一个块的直方图。根据这些直方图的峰为每一个块选择阈值;
*根据梯度大的位置计算阈值。这些梯度大的位置是利用梯度像素的局部极大来抽取的;
*通过从被识别为字符边界的区域进行抽取和插值获得阈值,字符边界是用二次导数方法提取的。
然后,通过在对每一个块选取的值之间进行插值,对图像中的每一个点分配一个阈值(步骤S106)。最后,使用所得到的阈值对图像进行二值化(步骤S108)。结果比全局化阈值分割好得多。
现有技术中有关二值化技术的文献将注意力集中在不同的特殊情况下,具有如下缺点:
1.全局阈值分割技术适合高质量的文档图像,但是对于质量不好的文档工作得就不是很好;
2.局部阈值分割技术对小尺寸的图像工作得不是很好,因为图像首先要抽样缩小为较小的块,然后再扩大。边界填充会严重影响最后的结果;
3.某些局部平均阈值分割技术例如Niblaek方法常常放大噪声,倾向于将大面积的背景区域误分类为文本;
4.这些技术常常需要使用边缘检测技术、间隔剔除方法和/或后期处理,以去除“鬼像”对象;
5.局部阈值分割技术要求多次读图像,非常慢,也不适合高质量图像。
另外,在寻求更好的方法时,应当认识到阈值分割方法的优点应当在于计算和实现上的简单。如果为了改进效果而使其过于复杂,则在精密程度上分段方法可以超过它。
发明内容
因此,本发明的一个目的是提供一种进行有效的自适应二值化的方法和设备。
为了实现上述目的,发明人提出了结合一种简单的预处理步骤,从而避免其它的局部自适应阈值分割方法在处理小尺寸图像或者高质量图像时存在的问题;并且隐含地将灰度级像素阈值分割问题转换为块特征分类问题。发明人提出并且验证了各种通用的文本特征都适用于块特征提取,对于本发明的二值化方案中的最终二值化结果只有微不足道的影响。发明人还提出并验证了块特征分类问题在本二值化方案中也是非常微不足道的,因此对于块特征分类来说通用的全局阈值分割方法就足够了。
在块阈值分配步骤,发明人原创地提出并验证了在本二值化方案中,用二阶导数方法获得的局部平均能够对质量差的图像实现变得清晰的二值化结果,而其它类似方法达不到这样好的结果。这种结果对于数字照相机OCR来说尤其重要。
发明人还设计了一种新的自适应偏移值,在本二值化方案中,其能够有利于稀疏文本图像的处理。
具体地,提供了一种对灰度级文档图像进行自适应二值化的方法,该方法包括:划分步骤,将灰度级文档划分为块;第一确定步骤,根据块的特征确定所划分的块当中的背景块和文本块;第二确定步骤,确定所述第一确定步骤所确定的每一个文本块所包括的像素中的背景像素;第一计算步骤,计算表示每一个块的阈值的块阈值面,其中,基于所述第一确定步骤所确定的背景块中所包括的所有像素计算该背景块的阈值,基于所述第一确定步骤所确定的文本块中所包括的背景像素计算该文本块的阈值,所述背景像素是在所述第二确定步骤中所确定的;以及二值化步骤,使用所述第一计算步骤所计算的块阈值面来将所述灰度级文档图像二值化。
本发明还提供了一种对灰度级文档图像进行自适应二值化的设备,该设备包括:划分装置,将灰度级文档划分为块;第一确定装置,根据块的特征确定所划分的块当中的背景块和文本块;第二确定装置,确定所述第一确定装置所确定的每一个文本块所包括的像素中的背景像素;第一计算装置,计算表示每一个块的阈值的块阈值面,其中,基于所述第一确定装置所确定的背景块中所包括的所有像素计算该背景块的阈值,基于所述第一确定装置所确定的文本块中所包括的背景像素计算该文本块的阈值,所述背景像素是在所述第二确定装置中所确定的;以及二值化装置,使用所述第一计算装置所计算的块阈值面来将所述灰度级文档图像二值化。
还提供了一种存储介质,其特征在于在其中存储了用于实现上述方法的程序代码。
本发明具有下述优点中的一个或者多个:
1.该解决方案在高速和高可靠性地处理文档图像方面是一种平衡的方案;
2.它对于低质量的图像,例如数码照相机图像和包含大块的背景区域的稀疏文本图像的效果很好;
3.其对于各种类型的字符,例如东亚字符,都有很好效果,使结果清晰化;
4.其计算量尽量地小,因此对于简单图像的处理来说不需要额外的计算量。
附图说明
本发明的其它目的、特征和优点将在阅读下文对优选实施例的详细说明后变得更为清楚。附图作为说明书的一部分用于图解本发明的实施例,并和说明书一起用于解释本发明的原理。在附图中:
图1是通用的局部自适应方法的流程图;
图2是本发明的整体过程的流程图;
图3是低质量文档图像的一个样本;
图4是将本发明应用于图3中的图像样本的结果,以及Otsu方法的全局阈值分割结果;
图5是可以实现本发明的方法和设备的计算机系统的一个例子的框图;
图6是图2的子过程的流程图,图示了计算块阈值面的细节;
图7图解了图6中的处理的效果;
图8是图2中的子过程的流程图,图示了计算阈值面的细节;
图9图解了图8中的处理的效果;
图10是本发明的整个处理过程的示意图;
图11图示了本发明的设备的框图;
图12图示了如图11所示的块阈值生成器的框图。
具体实施方式
计算机系统举例
本发明的方法和设备可以在任何信息处理设备中实现。所述信息处理设备例如是个人计算机(PC)、笔记本电脑、数字照相机或者嵌在扫描仪、复印机、传真机中的单片机(SCM)等。对于本领域普通技术人员,很容易通过软件、硬件和/或固件实现本发明的方法和设备。尤其应注意到,对于本领域普通技术人员显而易见的是,为了执行本方法的任何步骤或者步骤的组合,或者本发明的设备的任何部件或者部件的组合,可能需要使用输入输出设备、存储设备以及微处理器比如CPU等。在下面对本发明的方法和设备的说明中不见得提到这些设备,但实际上使用了这些设备。
作为上述信息处理设备,图5的框图示出了一个计算机系统的举例,在其中可以实现本发明的方法和设备。应注意的是,示于图5的计算机系统只是用于说明,并非要限制本发明的范围。
从硬件的角度来讲,计算机1包括一个CPU 6、一个硬盘(HD)5、一个RAM 7、一个ROM 8和输入输出设备12。输入输出设备可以包括输入装置比如键盘、触控板、跟踪球和鼠标等,输出装置比如打印机和监视器,以及输入输出装置比如软盘驱动器、光盘驱动器和通信端口。
从软件的角度讲,所述计算机主要包括操作系统(OS)9、输入输出驱动程序11和各种应用程序10。作为操作系统,可以使用市场上可购买的任何操作系统,比如Windows系列(Windows是微软公司拥有的商标)或者基于Linux的操作系统。输入输出驱动程序分别用于驱动所述输入输出设备。所述应用程序可以是任何应用程序,比如文本处理程序、图像处理程序等,其中包括可以用在本发明中的任何已有程序以及专为本发明编制的、可调用所述已有程序的应用程序。
这样,在本发明中,可以由操作系统、应用程序和输入输出驱动程序在所述计算机的硬件中实现本发明的方法和设备。
另外,计算机1可以连接到数字装置3和应用设备2。所述数字装置可以用作图像源,可以是照相机、扫描仪或者用于将模拟图像转换为数字图像的数字化仪。本发明的设备和方法所获得结果被输出到应用设备2,后者基于所述结果执行适当的操作。所述应用设备也可以被实现为在计算机1中实现的、用于进一步处理图像的另一个(与硬件相结合的)应用程序。
用于对文档图像进行自适应二值化的方法和设备
简单地说,本发明提供了一种计算机实现的方法和设备,用于对文档图像进行自适应二值化。图2是本发明的主流程图,图解了由如图11所示的本发明的设备的一个实施例的新的二值化方法的一个实施例。图10的示意图图解了该方法的一个实施例的主要步骤(其中没有全局阈值分割分支)。
本发明的设备包括:用于将所述灰度级文档划分为块并计算块特征图像的块特征提取器1104,所述块特征图像的每一个像素代表一个所述块的特征;通过对所述块特征图像进行阈值分割来计算块掩模的块掩模生成器1106,其中该块掩模区分背景块和文本块;基于所述块掩模和所述灰度级文档图像计算块阈值面的块阈值生成器1110;分别用于通过插值而展开所述块阈值面和所述块掩模而与所述灰度级文档图像匹配的第一展开器1108和第二展开器1112;基于所述展开的块阈值面和所述展开的块掩模计算偏移值的偏移值计算器1116;通过用所述偏移值调整所述展开的块阈值面而生成最终阈值面的图像阈值生成器1114;以及用调整后的展开的块阈值面对灰度级文档图像进行二值化的二值化器。
作为一种优选实施方式,该设备还可以包括质量识别器1102,用于判断所述灰度级文档图像的图像质量,以及全局阈值分割器1118,用于在所述质量识别器判定图像质量高的情况下对所述灰度级文档图像进行全局阈值分割。另外,所述块特征提取器、所述块掩模生成器、所述块阈值生成器、所述第一和第二展开器、所述偏移值计算器以及所述图像阈值生成器被配置为在所述质量识别器判定所述图像质量不高的情况下工作,并且所述二值化器1120被配置为:如果所述质量识别器判定图像质量高,则用所述全局阈值分割器获得的阈值对灰度级文档图像进行二值化;如果所述质量识别器判定图像质量不高,则用所述经过调整的展开的块阈值面对灰度级文档图像进行二值化。
在图3和图4中给出了一个文档样本及其二值化结果。
在步骤201中,首先由质量识别器1102对输入的灰度级图像I(例如是W×H像素,见图10)进行处理。质量识别器1102可以使用Otsu方法,由于该方法能够评估图像质量(见Xiangyun Ye,MohamedCheriet,and Ching Y.Suen.Stroke-modelbased character extractionfrom gray-level document images,IEEE Transactions on ImageProcessing,10(8):1152-1161,2001)并同时对图像进行全局阈值分割,其实现起来非常快。在Otsu方法中,类间方差被表示为:
最优阈值t*被确定为:
其中:
这里,l是图像中的总灰度级数;pi是灰度级i的出现概率。μ的最大值表示为μ*,可以用作图像质量的量度。就类别可分性而言根据经验选择μ1=0.83(步骤202)。如果μ*≥μ1t,则将图像归类为高质量图像,可以对其用全局阈值分割器1118用t*或者其它全局二值化方法进行全局阈值分割(步骤208)。这样,二值化器1120就可以基于这样获得的全局阈值生成二值图像(步骤209)。
如果μ*<μ1,则将图像归类为低质量图像,由图10中所示的其余部件实现的更为复杂的局部自适应阈值分割方法来进行处理。
在步骤203,块特征提取器1104将图像划分为相互不重叠的大小为wb×wb的方形块(wb根据经验选择,例如可以是16)。由块特征提取器1104提取块特征,以区分文本块和背景块。通常使用的各种文本特征都可以使用,例如块方差、过渡差(transient difference)(见J.Sauvola and M.,A daptive document image binarization,Pattern Recognition,33:225-236,2000),以及在文章Finding textregions using localized Measures(Paul Clark and Majid Mirmehdi,Proceedings of the 11th British Machine Vision Converence,pages675-684,2000)中列举的其它五种文本特征,或者它们的组合。
这里使用块方差特征作为例子。基于包含文本的块中的像素比背景区域具有更高的方差这样的假设,使用相邻的wb×wb像素块计算方差图像V。V包括每一个块的块方差值Vb(x,y)。也就是,W×H像素的原始图像I被缩小为W/wb×H/wb像素的块特征图像V,其中每一个像素对应于wb×wb像素的一个块b,其值等于对应的块b中的像素的方差。
对于本发明的一种实施方式,灰度级图像的每一个块的方差Vb可以基于下式计算:
其中,n表示每一个块中的像素数。Ibi表示块b中的像素i的值,Ib表示块b的决平均图像I的像素值。
在一种优选实施方式中,可以由下式确定每一个块的方差:
基于由块特征提取器这样提取的特征,获得了块特征图像V(见图10)。也就是,块特征图像V中的像素是原始图像I中的块的特征(比如方差),见图10。
然后由块掩模生成器1106基于块特征图像V计算块图像掩模(步骤204)。也就是,然后例如用Otsu方法对块特征图像V进行阈值分割。应当注意,在这里,也可以用其它通用的阈值分割方法来取代Otsu方法。关键在于将灰度级像素分类转换为块特征分类,从而大大降低复杂程度和计算量。根据经验发现,对于块特征图像阈值分割,全局二值化就足够了。局部自适应阈值分割或者其它更为复杂的方法也可以使用,但是它们所产生的结果与全局方法相比只有些微的差异,因此没有必要如此做。
然后就获得了块图像掩模Vmask,即二值图像,其将文本块与背景块区分开。例如,如图10所示,“1”代表文本块(文本块中的环形阴影部分表示笔画),“0”代表背景块。
接下来,由块阈值生成器1110基于Vmask获得块阈值面Bt604(其大小与V和Vmask相同)(步骤205)。图6图示了该步骤的细节,图12图示了块阈值生成器1110的细节。这里,对于每一个像素(或者说点)(x,y),V(x,y),Vmask(x,y)和Bt(x,y)都对应于原始灰度级图像I中的同一个非重叠块b。
在步骤601,如果Vmask(x,y)被块掩模生成器1106标记为背景块(Vmask中的“0”,见图10),则Bt(x,y)被赋值为Ib(步骤602),也就是背景块中所有像素的平均值,该值可由平均装置1202获得。如果Vmask(x,y)被块掩模生成器1106标记为文本块(Vmask中的“1”,见图10),则Bt(x,y)被赋值为I′b(步骤603),也就是文本块b中背景像素(例如白像素)的平均值,该值可由平均装置1202获得。b中的背景像素由边缘检测器1204标记。边缘检测器1204可以使用二阶导数方法。该方法对于检测像素是在边缘的暗侧还是在亮侧来说是一种有效的方法。这里,使用该方法来检测和标记字符笔画之间的内部空间。对于本发明的一种实施方式,边缘检测器1204可以被配置为使用LOG算子来进行检测。LOG(高斯-拉普拉斯算子,the Laplacianof Gaussian)算子是常用的二阶导数算子。使用LOG算子可以产生有关给定像素是在边缘的暗侧还是亮侧的信息。这是通过将LOG算子与块卷积而实现的,这样每一个像素获得一个卷积后的值。下面是LOG算子的一个例子,它是一个9×9模板:
0 | -1 | -1 | -2 | -2 | -2 | -1 | -1 | 0 |
-1 | -2 | -4 | -5 | -5 | -5 | -4 | -2 | -1 |
-1 | -4 | -5 | -3 | 0 | -3 | -5 | -4 | -1 |
-2 | -5 | -3 | 12 | 24 | 12 | -3 | -5 | -2 |
-2 | -5 | 0 | 24 | 40 | 24 | 0 | -5 | -2 |
-2 | -5 | -3 | 12 | 24 | 12 | -3 | -5 | -2 |
-1 | -4 | -5 | -3 | 0 | -3 | -5 | -4 | -1 |
-1 | -2 | -4 | -5 | -5 | -5 | -4 | -2 | -1 |
0 | -1 | -1 | -2 | -2 | -2 | -1 | -1 | 0 |
下面是卷积的一个小技巧。由于知道块在原始图像中的位置,并且知道每一个像素在块中的位置,因此就知道每一个像素在原始图像中的位置。这样,将LOG算子与原始图像内中央部分的每一个像素卷积,这样,就没有边界效应(如果将LOG算子直接与块卷积,就会出现边界效应)。
作为卷积的结果,每一个像素被赋予一个值。如果该值是正的,则该像素被标记为亮像素(背景)。如果该值是负的,则该像素被标记为暗像素(字符笔画)。这样就能将块内的背景与文本区分开。
图6所示的流程对于获得更清楚的二值化结果是非常必要的。如果只用周围的背景块对文本块阈值进行插值(就象Mauritius Seegerand Christopher R.Dance,Binarising camera images for OCR,ICDAR,Sep 2001一样),则二值化结果对于低质量图像(例如数码照相机摄取的包含东亚字符的图像,如图7(a)所示)来说很有可能模糊不清(如图7(b)所示)。所提出的基于二阶导数方法的部分平均可以解决这个问题,如图7(c)所示。注意,图中的这三个块都是从对应的原始图像中剪裁出来的,而不是直接对图7(a)进行阈值分割。
然后,在步骤206,由第一展开器1108和第二展开器1112将块阈值面Bt和块掩模Vmask展开以与原始图像I的分辨率匹配,也就是将块阈值面和块掩模赋值给原始图像I的像素。所得到的图像分别被定义为Bu(展开的块阈值面图像801,也就是原始图像的初步阈值面)和Tmask(展开的块掩模图像802)。对于本发明的一种实施方式,第一展开器1108采用最近相邻元素插值法(nearest-neighborinterpolation scheme)来展开二值图像Vmask,第二展开器1112采用双线性插值法来展开Bt。Tmask是二值图像(Tmask(x,y)=1代表文本区,Tmask(x,y)=0代表背景区)。
然后,由偏移值计算器1116利用第二展开器1112所生成的展开的块阈值面Bu中的背景部分和Tmask中的文本部分(前景部分)来确定全局偏移值d,该值是前景和背景之间的平均距离,如图8所示。
如步骤207所示,d由下式确定(步骤803):
其中:
S={(w,h)|Bu(w,h)>I(w,h)and Tmask(w,h)=1} (7)
其中|S|是集合S的大小,也就是集合S的元素的数量。
其中,Tmask(w,h)=1的意思是展开的块掩模Tmask中的像素(w,h)是前景像素,而Bu(w,h)>I(w,h)的意思是原始图像I中的像素(w,h)的值小于所述初步阈值(调整之前的阈值,也就是展开的块阈值面Bu中的阈值)。也就是说,原始图像I中的像素(w,h)(在使用d进行调整之前)被初步判定为背景像素。
换句话说,对于集合S中的每一个元素(像素(w,h)),其所属的块被判定为前景块。但是根据展开的块阈值面Bu,该像素本身应当是背景像素。这意味着该元素是与真正的前景像素相邻的像素。例如,如图7所示,图7(a)可以被视为一个块,其在块掩模计算步骤被判定为前景块,但是真正的前景像素为笔画中的像素,而其它的像素实际上是背景像素,如果只有这个块的话这些其它像素就构成了集合S。如图8所示的由偏移值计算器1116实现的过程对于清除稀疏文本图像中的鬼像像素是很重要的(如图9所示)。如果在计算S时没有二次划分,d就会太小,如Mauritius Seeger and Christopher R.Dance,Binarising camera images for OCR,ICDAR,Sep 2001中所述。从而,如图9(b)所示,二值化结果会严重恶化。
最后,如步骤804所示,图像阈值生成器1114执行下述计算以获得最终阈值面T(w,h):
T(w,h)=Bu(w,h)-qd, (7)
其中(w,h)是原始图像中每一个像素的坐标。
这里,q是经验常数,可以是1到2,最好是1.5。这样,二值化器1120就可以基于阈值面T生成二值化图像(步骤209)。
在上面的说明中,首先判断图像的质量(步骤201),基于判断的结果(步骤202),用步骤208获得的全局阈值对图像进行二值化,或者使用步骤203到207获得的阈值面T对图像进行二值化(步骤209)。但是,在另一种实施方式中,所述步骤201、202可以省略,将步骤209配置为只使用阈值面T对图像进行二值化。
存储介质
本发明的所述目的还可以通过在如上所述的可以与任何图像源和后续处理设备通信的任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备、图像源和后续处理设备都可以是公知的通用设备。因此,本发明的所述目的也可以仅仅通过提供实现所述方法或者设备的程序代码来实现。也就是说,存储有实现所述方法的程序代码的存储介质构成本发明。
对于本领域技术人员来说,可以轻易地用任何程序语言编程实现所述方法。因此,在此省略了对所述程序代码的详细描述。
显然,所述存储介质可以是本领域技术人员已知的,或者将来所开发出来的任何类型的存储介质,因此也没有必要在此对各种存储介质一一列举。
尽管结合具体步骤和结构描述了本发明,但是本发明不局限于这里所描述的细节。本申请应当覆盖所有不偏离本发明的精神和范围的变化、修改和变型。
Claims (22)
1.一种对灰度级文档图像进行自适应二值化的方法,该方法包括:
划分步骤,将灰度级文档划分为块;
第一确定步骤,根据所划分的块的特征确定所述块当中的背景块和文本块;
第二确定步骤,确定所述第一确定步骤所确定的每一个文本块所包括的像素中的背景像素;
第一计算步骤,计算表示每一个块的阈值的块阈值面,其中,基于所述第一确定步骤所确定的背景块中所包括的所有像素计算该背景块的阈值,基于所述第一确定步骤所确定的文本块中所包括的背景像素计算该文本块的阈值,所述背景像素是在所述第二确定步骤中所确定的;以及
二值化步骤,使用所述第一计算步骤所计算的块阈值面来将所述灰度级文档图像二值化。
2.如权利要求1所述的方法,其中,所述第一确定步骤包括如下步骤:
计算块特征图像,其中该块特征图像的每一个像素代表每一个块的特征;以及
通过对该块特征图像进行阈值分割计算块掩模,其中,块掩模的每一个像素表示对应的块是背景块或者文本块。
3.如权利要求2所述的方法,其中,所述二值化步骤包括下述步骤:
通过插值展开所述块阈值面和块掩模以与所述灰度级文档图像匹配;
用偏移值来调整展开的块阈值面,该偏移值是基于展开的块阈值面和展开的块掩模计算的;以及
使用调整后的展开的块阈值面来将所述灰度级文档图像二值化。
4.如权利要求1所述的方法,其中,在所述第一计算步骤中,在所述第一确定步骤中被确定为背景块的块的阈值是基于该块中的像素的平均值计算的,并且,
在所述第一计算步骤中,在所述第一确定步骤中被确定为文本块的块的阈值是基于该块内的背景像素的平均值计算的。
5.如权利要求1所述的方法,其中,在所述第二确定步骤中,所述文本块的背景像素是基于文本块中的亮的部分确定的,所述亮的部分由二阶导数方法来标记。
6.如权利要求5所述的方法,其中,所述二阶导数方法使用高斯-拉普拉斯算子。
7.如权利要求2所述的方法,其中,计算块掩模的步骤是用Otsu方法实现的。
8.如权利要求1所述的方法,其中,每一个块的特征是该块中所包括的像素值的方差。
9.如权利要求3所述的方法,其中,展开所述块阈值面的步骤是用双线性插值法实现的,展开所述块掩模的步骤是用最近相邻元素插值法实现的。
10.如权利要求1所述的方法,还包括:
第三确定步骤,确定所述灰度级文档图像的图像质量;以及
第二二值化步骤,如果在所述第三确定步骤中判定图像质量高,则用全局阈值来二值化所述灰度级文档图像;
其中,如果在所述第三确定步骤中判定图像质量不高,则执行所述划分步骤、所述第一确定步骤、所述第二确定步骤、所述第一计算步骤和所述二值化步骤。
11.如权利要求10所述的方法,其中,在所述第三确定步骤中图像质量是基于Otsu方法进行判断的。
12.一种对灰度级文档图像进行自适应二值化的设备,该设备包括:
划分装置,将灰度级文档划分为块;
第一确定装置,根据块的特征确定所划分的块当中的背景块和文本块;
第二确定装置,确定所述第一确定装置所确定的每一个文本块所包括的像素中的背景像素;
第一计算装置,计算表示每一个块的阈值的块阈值面,其中,基于所述第一确定装置所确定的背景块中所包括的所有像素计算该背景块的阈值,基于所述第一确定装置所确定的文本块中所包括的背景像素计算该文本块的阈值,所述背景像素是在所述第二确定装置中所确定的;以及
二值化装置,使用所述第一计算装置所计算的块阈值面来将所述灰度级文档图像二值化。
13.如权利要求12所述的设备,其中,所述第一确定装置包括:
计算块特征图像的装置,其中该块特征图像的每一个像素代表每一个块的特征;以及
通过对该块特征图像进行阈值分割计算块掩模的装置,其中,块掩模的每一个像素表示对应的块是背景块或者文本块。
14.如权利要求13所述的设备,其中,所述二值化装置包括:
通过插值展开所述块阈值面和块掩模以与所述灰度级文档图像匹配的装置;
用偏移值来调整展开的块阈值面的装置,该偏移值是基于展开的块阈值面和展开的块掩模计算的;以及
使用调整后的块阈值面来将所述灰度级文档图像二值化的装置。
15.如权利要求12所述的设备,其中,在所述第一计算装置中,在所述第一确定装置中被确定为背景块的块的阈值是基于该块中的像素的平均值计算的,并且,
在所述第一计算装置中,在所述第一确定装置中被确定为文本块的块的阈值是基于该块内的背景像素的平均值计算的。
16.如权利要求12所述的设备,其中,在所述第二确定装置中,所述文本块的背景像素是基于文本块中的亮的部分确定的,所述亮的部分由二阶导数计算器来标记。
17.如权利要求16所述的设备,其中,所述二阶导数计算器使用高斯-拉普拉斯算子。
18.如权利要求13所述的设备,其中,计算块掩模的装置是用Otsu方法实现的。
19.如权利要求12所述的设备,其中,每一个块的特征是该块中所包括的像素值的方差。
20.如权利要求14所述的设备,其中,展开所述块阈值面的装置是用双线性插值法实现的,展开所述块掩模的装置是用最近相邻元素插值法实现的。
21.如权利要求12所述的设备,还包括:
第三确定装置,确定所述灰度级文档图像的图像质量;以及
第二二值化装置,如果所述第三确定装置判定图像质量高,则用全局阈值来二值化所述灰度级文档图像;
其中,如果所述第三确定装置判定图像质量不高,则所述划分装置、所述第一确定装置、所述第二确定装置、所述第一计算装置和所述二值化装置工作。
22.如权利要求21所述的设备,其中,在所述第三确定装置中图像质量是基于Otsu方法进行判断的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005101381321A CN100561504C (zh) | 2005-12-22 | 2005-12-22 | 文档的自适应二值化方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005101381321A CN100561504C (zh) | 2005-12-22 | 2005-12-22 | 文档的自适应二值化方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1987894A CN1987894A (zh) | 2007-06-27 |
CN100561504C true CN100561504C (zh) | 2009-11-18 |
Family
ID=38184685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005101381321A Expired - Fee Related CN100561504C (zh) | 2005-12-22 | 2005-12-22 | 文档的自适应二值化方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100561504C (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8457403B2 (en) * | 2011-05-19 | 2013-06-04 | Seiko Epson Corporation | Method of detecting and correcting digital images of books in the book spine area |
CN103413342B (zh) * | 2013-07-25 | 2016-06-15 | 南京师范大学 | 一种基于像素点的图像文字渐变方法 |
CN106203434B (zh) * | 2016-07-08 | 2019-07-19 | 中国科学院自动化研究所 | 基于笔画结构对称性的文档图像二值化方法 |
CN106157323B (zh) * | 2016-08-30 | 2019-03-26 | 西安工程大学 | 一种动态分块阈值和块搜索结合的绝缘子分割提取方法 |
CN109977956B (zh) * | 2019-04-29 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
CN110348452B (zh) * | 2019-06-12 | 2021-08-20 | 江苏富山软件科技有限公司 | 一种图像二值化处理方法及其系统 |
CN110992387B (zh) * | 2019-11-08 | 2022-06-10 | 浪潮电子信息产业股份有限公司 | 一种图像处理方法、装置及电子设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1400806A (zh) * | 2001-07-31 | 2003-03-05 | 佳能株式会社 | 采用自适应二值化的图象处理方法和设备 |
-
2005
- 2005-12-22 CN CNB2005101381321A patent/CN100561504C/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1400806A (zh) * | 2001-07-31 | 2003-03-05 | 佳能株式会社 | 采用自适应二值化的图象处理方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN1987894A (zh) | 2007-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609549B (zh) | 一种自然场景下证件图像的文本检测方法 | |
Patel et al. | Automatic number plate recognition system (anpr): A survey | |
Pratikakis et al. | ICDAR 2013 document image binarization contest (DIBCO 2013) | |
Zhang et al. | Image segmentation based on 2D Otsu method with histogram analysis | |
Yousif et al. | Toward an optimized neutrosophic K-means with genetic algorithm for automatic vehicle license plate recognition (ONKM-AVLPR) | |
CN100561504C (zh) | 文档的自适应二值化方法和设备 | |
Xu et al. | Smart data driven traffic sign detection method based on adaptive color threshold and shape symmetry | |
US8965123B2 (en) | System and method for processing image for identifying alphanumeric characters present in a series | |
Lelore et al. | FAIR: a fast algorithm for document image restoration | |
US20070253040A1 (en) | Color scanning to enhance bitonal image | |
JP5176763B2 (ja) | 低品質文字の識別方法及び装置 | |
Yadav et al. | Text extraction in document images: highlight on using corner points | |
CN105404868A (zh) | 一种基于交互平台的复杂背景中文本的快速检测方法 | |
CN109389116B (zh) | 一种字符检测方法及装置 | |
Agrawal et al. | Stroke-like pattern noise removal in binary document images | |
Pirgazi et al. | An efficient robust method for accurate and real-time vehicle plate recognition | |
Jana et al. | A fuzzy C-means based approach towards efficient document image binarization | |
JP3416058B2 (ja) | 濃淡画像の文字抽出方法及びそのプログラムを記録した記録媒体 | |
CN100354876C (zh) | 增强字符行图像的方法和设备 | |
CN100416597C (zh) | 用于文档的自适应二值化的方法和设备 | |
Gaceb et al. | A new mixed binarization method used in a real time application of automatic business document and postal mail sorting. | |
Cavalcanti et al. | A heuristic binarization algorithm for documents with complex background | |
CN112633289A (zh) | 一种粘连字符分割方法和系统 | |
Uma et al. | Implementation of license plate recognition system in arm cortex a8 board | |
Arafat et al. | A vehicular license plate recognition framework for skewed images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091118 Termination date: 20161222 |