CN106203251B

CN106203251B - 文档图像二值化方法

Info

Publication number: CN106203251B
Application number: CN201610356483.8A
Authority: CN
Inventors: 方刚
Original assignee: Konica Minolta Laboratory USA Inc
Current assignee: Konica Minolta Laboratory USA Inc
Priority date: 2015-05-29
Filing date: 2016-05-26
Publication date: 2019-04-23
Anticipated expiration: 2036-05-26
Also published as: US9367899B1; JP2016224914A; JP6423814B2; CN106203251A

Abstract

本发明涉及一种文档图像二值化方法。一种用于对文档图像进行二值化的方法，使用多阈值处理以确定用于图像的最佳全局二值化阈值。最佳二值化阈值通过以下方式确定，即，使用不同的阈值对文档进行多次二值化，并针对每个阈值计算有用信息和噪声的统计以选择最佳阈值。

Description

文档图像二值化方法

技术领域

本发明涉及用于对文档图像进行二值化的方法和相关装置。

背景技术

文档图像处理中的初始步骤是二值化，即将多比特图像(例如，8比特图像)转换为1比特图像。文档图像是指从例如通过扫描或拍摄文档的硬拷贝文档产生的图像，其中，文档通常包含文本，并且可能还包含图像和图形。二值化通常在诸如OCR(光学字符识别)的其他处理之前执行。

在一些常规的二值化方法中，使用全局二值化阈值；具有大于阈值的值的像素被设置为1，而具有低于该阈值的值的像素被设置为0。存在用于确定二值化阈值的各种现有方法。一个例子是大津法(Otsu’s method)。然而，当这些方法应用于真实的文档图像时，它们通常受到图像质量以及图像内容的影响。例如，许多文档图像具有背景颜色和嵌入图像，大津法对其效果不好。此外，一些二值化方法很慢。

一些现有方法利用局部阈值二值化，在前景和背景之间具有间隔。许多这样的方法可以处理从相机输出的趋向于具有低质量的图像。然而，它们涉及高计算成本。一些现有方法利用基于以验证为基础的多阈值探测方案的自适应局部阈值化。

发明内容

因此，本发明涉及基本上消除由于现有技术的限制和缺点而导致的问题中的一个或多个的文档图像二值化方法和相关装置。

本发明的目的是提供一种文档图像二值化方法，该文档图像二值化方法精确地检测包含彩色背景或嵌入图像的文档图像的全局阈值，以使得彩色背景和嵌入图像可以被移除。本发明的另一个目的是提供一种不复杂且快速的文档图像二值化方法。

本发明的另外的特征和优点将在以下的描述中进行阐述，并且部分地将从该描述是清楚的，或者可以通过实施本发明来了解。本发明的目标和其他优点将通过在所撰写的说明书及其权利要求书以及附图中具体指出的结构来实现和达成。

为了实现这些和/或其他目的，如所实施的和广泛地描述的，本发明提供一种用于对多比特文档图像进行二值化的方法，该方法包括：(a)对所述文档图像进行多次二值化，每次使用多个不同的二值化阈值中的一个，以产生多个对应的二值图像；对于二值图像中的每个二值图像，(b)将连通分量分析应用于该二值图像以识别该二值图像中的连通分量；(c)识别该二值图像中的大于阈值大小并且具有比填充率阈值高的填充率的所有连通分量，并移除包含在识别的连通分量的边界框中的所有连通分量；和(d)对该二值图像中的具有等于或大于第一阈值大小的大小的连通分量的第一数量进行计数，并且对该二值图像中的具有等于或小于第二阈值大小的大小的连通分量的第二数量进行计数；(e)基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像；以及(j)输出所述最佳二值图像。

在一种实现中，选择步骤(e)包括：(f)从所述多个二值图像定义多组二值图像，其中所述多个二值化阈值形成递增或递减序列，并且其中每个组包括与所述序列中的连续的二值化阈值对应的多个二值图像；(g)对于每个组，计算第一平均值和第二平均值，所述第一平均值是第一数量的平均，所述第二平均值是第二数量的平均；(h)基于所述多个组的第一平均值和第二平均值，选择所述组中的一个组作为最佳组；和(i)在所述最佳组内，基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像。

在一种实现中，选择步骤(h)包括：(h1)如果所述多个组的第二平均值仅具有一个局部最小值，则选择与该第二平均值对应的组作为最佳组；和(h2)如果所述多个组的第二平均值具有两个或更多个局部最小值，则(h3)选择分别与所述局部最小值中的第一个局部最小值和第二个局部最小值对应的第一组和第二组；(h4)如果第一组的第二平均值远大于第二组的第二平均值，或者如果第一组的第二平均值小于第二组的第二平均值并且第一组的第一平均值远小于第二组的第一平均值，则选择第二组作为最佳组；和(h5)否则选择第一组作为最佳组。

在一种实现中，选择步骤(h4)包括：如果第一组的第二平均值大于第二组的第二平均值的1.25倍，或者如果第一组的第二平均值小于第二组的第二平均值并且第一组的第一平均值小于第二组的第一平均值的三分之二，则选择第二组作为最佳组。

在一种实现中，选择步骤(i)包括：对每个二值图像计算第一数量和第二数量的差值；和选择所述二值图像中的具有最大差值的一个二值图像作为最佳二值图像。

在另一个方面，本发明提供一种数据处理装置，该数据处理装置包括被配置为执行与以上方法对应的处理的处理器。

要理解，前面的概括描述和以下的详细描述都是示例性的和说明性的，并意图提供如要求保护的本发明的进一步的说明。

附图说明

图1和图2示意性地例示说明根据本发明的实施例的文档图像二值化方法。

图3A和图3B例示说明针对根据实施例的文档图像二值化方法的数据处理结果的例子。

具体实施方式

本发明的实施例提供一种用于对文档图像进行二值化的方法，使用多阈值处理以确定图像的最佳全局二值化阈值。最佳二值化阈值通过以下方式而确定，即，使用不同的阈值对文档进行多次二值化，并针对每个阈值计算有用信息和噪声的统计以选择最佳阈值。

在以下描述中，文档图像是较浅的(白色或浅灰色)背景上的较深的(黑色或深灰色)内容的灰度图像。该方法通过适当修改也适用于倒像图像(较深的背景上的较浅的彩色文本)。在以下描述中，8比特图像被用作例子，并且假定用于白色的像素值是零(用于白色和黑色的像素值是约定俗成的)。

一般来说，如果文档图像中的背景非常接近于白色，则最佳二值化阈值将是相对较低的值(即，接近于白色的值)，以使得即使较浅的彩色内容在二值化图像中也将被设置为黑色。然而，对于具有非白色(例如，浅灰色)背景的文档图像，最佳阈值将比用于具有白色背景的图像的最佳阈值高(即，深)，以使得浅色背景可以通过二值化而被移除(即，被设置为白色)。对于具有嵌入图像的文档，最佳阈值应是相对较低的(即，较浅的)，以使得在二值化图像中，嵌入图像的区域将具有促进嵌入图像的移除的足够高的填充率(即，黑色像素在区域中的百分比)。本发明的实施例提供如图1和图2中示意性地例示说明的用于确定文档图像的最佳二值化阈值的方法。

如图1所示，输入文档图像首先经过预处理，包括例如偏移校正、去噪、下采样等(步骤S11)。在一种实现中，对输入文档进行25％的下采样。接着，使用多个不同的二值化阈值对文档图像进行多次二值化，以产生多个对应的二值图像(步骤S12)。每个二值化阈值可以是从1到254的值。在一种实现中，使用值为10、20、…至160的16个二值化阈值。这些阈值被称为级别1、级别2、…至级别16。当然，可以使用不同数量的阈值级别和不同值的阈值。

对于在步骤S12中产生的每个二值图像，应用连通分量分析来识别图像中的所有连通分量(步骤S13)。二值图像中的连通分量是彼此连接的一个或多个黑色像素的组。检查连通分量，并且与嵌入图像对应的那些连通分量被如下那样移除(步骤S14)：对于每个连通分量，如果它具有大于阈值大小的大小以及高于其边界框中的阈值填充率的填充率，则移除其边界框内的所有黑色像素(所有连通分量)(即，将这些黑色像素全都设置为白色)。在步骤S14中，连通分量的大小由它包含的黑色像素的数量或者其边界框的大小定义。连通分量的边界框是包含该连通分量的所有黑色像素的最小的矩形框。填充率是边界框中的黑色像素的百分比。在步骤S14的一种实现中，具有大于150×150个像素的边界框以及大于50％的填充率的连通分量被视为嵌入图像并且被移除。当然，也可以使用其他标准。

对于每个二值图像的其余的连通分量，具有等于或小于第一阈值大小(例如，2个像素)的大小的那些连通分量被视为噪声，而具有等于或大于第二阈值大小(例如，6个像素)的大小的那些连通分量被视为内容。在步骤S14中获得的每个二值图像中，对作为噪声的连通分量(“噪声CC”)的数量进行计数，并且还对作为内容的连通分量(“内容CC”)的数量进行计数(步骤S15)。

图3A在一个例子中分别示出了16个二值图像的噪声CC和内容CC的数量的曲线。可以看出，在这个具体例子中，对于几个较高的阈值，内容CC的数量下降，而噪声的数量上升。这对应于如下事实，即，对于这些较高的阈值，二值图像开始使内容散开，并且内容开始被分解为小的片段。还可以看出，噪声CC的数量与阈值级别具有非单调关系。

最佳二值化阈值是将会使内容CC的数量增加而使噪声CC的数量减少的阈值。步骤S16至S18被执行来确定最佳二值化阈值级别。

首先，定义多组二值图像，每个组包含连续的阈值级别的多个二值图像。在一个例子中，定义七组二值图像，每个组包含连续的阈值级别的四个二值图像，例如，从级别1到级别4的四个二值图像(组1)、从级别3到级别6的四个二值图像(组2)、从级别5到级别8的四个二值图像(组3)、从级别7到级别10的四个二值图像(组4)、从级别9到级别12的四个二值图像(组5)、从级别11到级别14的四个二值图像(组6)以及从级别13到级别16的四个二值图像(组7)。对于每组二值图像，计算作为信息的连通分量的平均数量(“A”)以及作为噪声的连通分量的平均数量(“B”)(步骤S16)。平均值是在每组中的多个二值图像上获取的。该分组的目的是，使各二值图像中的信息CC和噪声CC的数量的小的变化达到平均。从这个意义上来讲，该多个组可以被看作是移动窗口。

图3B是分别示出以上例子中的七个组的噪声CC和内容CC的平均数量的柱形图。

在步骤S17中，检查组的内容CC的平均数量(A)和噪声CC的平均数量(B)以选择最佳组。下面参照图2来说明步骤S17的细节。首先，检查该多个组的B值以确定局部最小的B值(步骤S21)。如果仅存在一个局部最小的B值(在步骤S22中为“是”)，则将该组选为最佳组(步骤S23)。在图3B的例子中，组5的B值是局部最小值；尽管图形在组1的左边不具有B值，组1的B值也被认为是局部最小值。

如果存在两个或更多个局部最小的B值(在步骤S22中为“是”)，则如下比较与(从左起)第一个和第二个局部最小的B值对应的组(这里被称为g1和g2)以选择最佳组(步骤S24)。如果(1)B_g1远大于B_g2，或者如果(2)B_g1小于B_g2但是A_g1也远小于A_g2，则第二个局部最小的组g2被选为最佳组；否则，第一个局部最小的组g1被选为最佳组。一般地，选择标准的目标是选择给予更多内容CC和更少噪声CC的组。

在一种实现中，以上两个条件具体地是：如果(1)B_g1>1.25B_g2，或者如果(2)B_g1<B_g2并且1.5A_g1<A_g2，则第二个局部最小的组被选为最佳组；否则，第一个局部最小的组被选为最佳组。这个具体例子是基于对大量样本文档图像进行分析而获得的。

在以上例子(参见图3B)中，组1和组5既不满足第一条件B_g1>1.25B_g2，也不满足第二条件B_g1<B_g2并且1.5A_g1<A_g2；因此，第一个局部最小的组即组1被选为最佳组。

然后，在步骤S18中，将所选择的给予更多内容和更少噪声的最佳组内的一个二值图像选为最佳二值化阈值。具体地，对于最佳组中的每个二值图像，计算内容CC的数量和噪声CC的数量之间的差值。该差值预计是很大的正数。具有最大差值的二值图像被选为最佳二值图像。然后可以将该最佳二值图像作为输入文档图像的二值化结果而输出(步骤S19)。

总而言之，本公开中描述的文档图像二值化方法具有以下特征和优点：(1)使用多个二值化阈值对文档进行二值化，并且基于多个二值图像中的噪声和内容的量的比较来确定最佳二值化阈值。因此，最佳二值化阈值确定更加可靠。(2)该方法可以处理包含非白色背景和嵌入图像的文档图像。(3)当应用多线程时，该算法简单且快速。

该文档图像二值化方法可以处理具有不均匀背景的文档图像，只要在背景的像素值和内容的像素值之间存在显著差距即可。

此外，尽管在以上描述中，文档图像二值化方法被全局地应用于整个文档图像，但是也可以以局部的方式将该方法用于对文档图像的一部分进行二值化；即，在图像的一部分内，该方法可以被应用于对该部分进行二值化。

上述方法可以在包括处理器和存储器或存储设备的数据处理系统中实现。该数据处理系统可以是独立的计算机，或者该数据处理系统可以包含在打印机、复印机、扫描仪或多功能设备中。该数据处理系统通过处理器执行存储在存储器或存储设备中的计算机程序来实现该方法。在一个方面，本发明体现在数据处理系统中。在另一个方面，本发明是包括被配置为执行与以上方法对应的处理的处理器的数据处理装置。在另一个方面，本发明是由数据处理系统实现的方法。

对于本领域技术人员将清楚的是，在不脱离本发明的精神或范围的情况下，可以对本发明的文档图像二值化方法和相关装置进行各种修改和变化。因此，意图是本发明涵盖落在所附权利要求书及其等同形式的范围内的修改和变化。

Claims

1.一种用于对多比特文档图像进行二值化的方法，包括：

(a)对所述文档图像进行多次二值化，每次使用多个不同的二值化阈值中的一个，以产生多个对应的二值图像；

对于所述二值图像中的每个二值图像，

(b)将连通分量分析应用于该二值图像以识别该二值图像中的连通分量；

(c)识别该二值图像中的大于阈值大小并且具有比填充率阈值高的填充率的所有连通分量，并移除包含在识别的连通分量的边界框中的所有连通分量；和

(d)对该二值图像中的具有等于或大于第一阈值大小的大小的连通分量的第一数量进行计数，并且对该二值图像中的具有等于或小于第二阈值大小的大小的连通分量的第二数量进行计数，其中所述第一阈值大小大于所述第二阈值大小；

(e)基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像；和

(j)输出所述最佳二值图像。

2.根据权利要求1所述的方法，其中，在移除步骤(c)中，所述阈值大小是150×150个像素，阈值填充率是50％。

3.根据权利要求1或2所述的方法，其中，在计数步骤(d)中，所述第一阈值大小是6个像素，所述第二阈值大小是2个像素。

4.根据权利要求1或2所述的方法，其中，所述选择步骤(e)包括：

(f)从所述多个二值图像定义多组二值图像，其中所述多个二值化阈值形成递增或递减序列，并且其中每个组包括与所述序列中的连续的二值化阈值对应的多个二值图像；

(g)对于每个组，计算第一平均值和第二平均值，所述第一平均值是第一数量的平均，所述第二平均值是第二数量的平均；

(h)基于所述多个组的第一平均值和第二平均值，选择所述组中的一个组作为最佳组；和

(i)在所述最佳组内，基于每个二值图像的第一数量和第二数量，选择所述二值图像中的一个二值图像作为最佳二值图像。

5.根据权利要求4所述的方法，其中，选择步骤(h)包括：

(h1)如果所述多个组的第二平均值仅具有一个局部最小值，则选择与该第二平均值对应的组作为最佳组；和

(h2)如果所述多个组的第二平均值具有两个或更多个局部最小值，则

(h3)选择分别与所述局部最小值中的第一个局部最小值和第二个局部最小值对应的第一组和第二组；

(h4)如果第一组的第二平均值远大于第二组的第二平均值，或者如果第一组的第二平均值小于第二组的第二平均值并且第一组的第一平均值远小于第二组的第一平均值，则选择第二组作为最佳组；和

(h5)否则选择第一组作为最佳组。

6.根据权利要求5所述的方法，其中，选择步骤(h4)包括：

如果第一组的第二平均值大于第二组的第二平均值的1.25倍，或者如果第一组的第二平均值小于第二组的第二平均值并且第一组的第一平均值小于第二组的第一平均值的三分之二，则选择第二组作为最佳组。

7.根据权利要求4所述的方法，其中，选择步骤(i)包括：

对每个二值图像计算第一数量和第二数量的差值；和

选择所述二值图像中的具有最大差值的一个二值图像作为最佳二值图像。

8.根据权利要求4所述的方法，其中，在二值化步骤(a)中，使用16个二值化阈值对所述文档图像进行16次二值化，并且其中定义步骤(f)定义7组二值图像。

9.一种数据处理装置，所述数据处理装置包括处理器，所述处理器被配置为执行用于对多比特文档图像进行二值化的处理，所述处理包括：

对于所述二值图像中的每个二值图像，

(j)输出所述最佳二值图像。

10.根据权利要求9所述的数据处理装置，其中，在移除处理(c)中，所述阈值大小是150×150个像素，阈值填充率是50％。

11.根据权利要求9或10所述的数据处理装置，其中，在计数处理(d)中，所述第一阈值大小是6个像素，所述第二阈值大小是2个像素。

12.根据权利要求9或10所述的数据处理装置，其中，选择处理(e)包括：

(f)从所述多个二值图像定义多组二值图像，其中，所述多个二值化阈值形成递增或递减序列，并且其中每个组包括与所述序列中的连续的二值化阈值对应的多个二值图像；

13.根据权利要求12所述的数据处理装置，其中，选择处理(h)包括：

(h5)否则选择第一组作为最佳组。

14.根据权利要求13所述的数据处理装置，其中，选择处理(h4)包括：

15.根据权利要求12所述的数据处理装置，其中，选择处理(i)包括：

对每个二值图像计算第一数量和第二数量的差值；和

16.根据权利要求12所述的数据处理装置，其中，在二值化处理(a)中，使用16个二值化阈值对所述文档图像进行16次二值化，并且其中定义处理(f)定义7组二值图像。