CN101021905A

CN101021905A - 一种文档图像二值化方法

Info

Publication number: CN101021905A
Application number: CN 200610003579
Authority: CN
Inventors: 朱远平; 王春恒; 戴汝为
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2006-02-15
Filing date: 2006-02-15
Publication date: 2007-08-22
Anticipated expiration: 2026-02-15
Also published as: CN100487725C

Abstract

本发明涉及图像处理与模式识别学技术领域，特别是一种文档图像的二值化方法。针对现有图像二值化技术处理低质量文档图像的能力不足，提出了一种新的文档图像二值化方法，首先对图像进行前背景像素初始标定，在此基础上分析笔划邻域信息，包括灰度信息、梯度信息和几何信息，然后，基于笔划邻域信息对文字笔划进行图像增强，最后在增强后的图像上进行二值化。同时，本发明还提出了一种快速前背景像素标定方法和一种改进的基于Niblack方法的二值化阈值求取方法，用于上述的二值化方法中。

Description

一种文档图像二值化方法

技术领域

本发明涉及图像处理与模式识别学技术领域，特别是一种文档图像的二值化方法。

背景技术

图像二值化是指一种图像处理技术，它将灰度图像转化为单色图像，以便进行进一步的分析和处理。文档图像的应用越来越广泛，我们处理的第一步往往就是将文档图像进行二值化，在此基础上获得文字图像，再进行文字识别工作。图像二值化结果的好坏直接影响文字识别的结果。

在文档图像中，光照变化、模糊、分辨率不足等降质现象给二值化带来消极影响。他们往往导致在文字像素附近，很多背景像素与文字像素灰度非常接近。文字局部区域的前背景像素灰度级分布有可能存在相隔紧密甚至发生交叠情况的时候，采用通常的方法很难很好地分离前背景。光学图象在采集过程中存在点扩散效应，是产生文字模糊现象的重要因素之一。当笔划密集，间隔较小的时候，不同笔划之间的空隙会因为扩散作用的影响变得非常模糊，以至难以区分开来。这种情况在光照变化、分辨率较低的情况下会变得更加恶劣化。而对于一些字符笔划较多的语种例如中文的文档来说，笔划密集的情况是常见的，这个情况尤其值得重视。现有的二值化方法在处理文档图像中文字局部区域内前背景图像的灰度直方图存在重叠的情况时，效果均不够理想。

通常，把二值化方法分为两类，一类是全局的方法。如Otsu[N.Otsu.A thresholding selection method from gray-level histogram.IEEE Trans.System，Man，and Cybernetics.Vol9(1)：62-66，1978]方法，采用最大类方差的方法确定分割阈值。吴坤荣在专利“影响二值化方法”[中国专利申请号200410005608.X]中提出了一种基于像素累积直方图中寻找二值化临界值的作为阈值的二值化方法。徐剑波在专利“一种图像二值化的方法”[中国专利申请号200510080050.6]中提出了一种能面向灰度直方图双峰偏移情况的图像二值化方法。全局阈值的方法实现简单，速度较快，但不能适应光照变化图像，处理质量较差的图像也比较困难。由于仅仅采用单一阈值，全局范围的前背景像素灰度直方图重叠的情况尚且不能处理，对于文字局部区域发生的直方图重叠情况更是无法胜任。

另一类是局部自适应的方法，根据图像不同区域的情况，确定不同的阈值，相比全局的方法，分割效果大为提高，一般能够较好完成全局范围的前背景像素灰度直方图重叠的情况下的二值化工作。如Niblack的方法[W.Niblack.An Introduction to Digital Image Processing.pp：115-116，Prentice Hall，1986]是最经典的自适应二值化方法，该方法基于局部均值和方差直接获得阈值。但是该方法存在背景区域噪声敏感的问题，在文字像素比较稀疏的大块背景区域容易产生大量的噪声。Bersen的方法[J.Bernsen.Dynamic thresholding of gray-level images.In Proc.8th Intl Conf.on Pattern Recognition，Paris，France，1986，pp.1251-1255.ICPR’86]以局部区域最大值与最小值的中间值为阈值，并基于局部区域对比度来判断区域类别属性。钟自强在专利“灰度图像二值化处理系统和方法”[中国专利申请号98191135.5]提出了一种基于边界检测的局部阈值计算方法。郭金红在专利“彩色文献图像的自适应二值化方法和设备”[中国专利申请号02151398.8]提出了一种基于局部行列像素的阈值选取方法。李玉鳞在专利“采用自适应二值化的图像处理方法与设备”[中国专利申请号01124473.9]中提出了一种新的二值化方法，先将图像分成若干子图像，然后在子图像上基于边缘和灰度统计信息计算阈值，以每个子图像的阈值对每个子图像进行二值化。

但这些局部方法要么采取的是一种近似全局方法的策略，局部自适应能力不强。要么在计算阈值时采取的窗口大小一般都基于与文字尺寸相适应的假设，这种假设的基础事实上是不那么可靠的。首先，同一篇文档中，字号的大小通常会有变化，固定窗口大小显然不能很好适应这种变化。其次，当图像质量较差的时候，同一个字符的不同笔划间的亮度也有可能存在差异。因此，总的来说，现有的局部自适应的二值化方法对于局部区域的前背景像素灰度直方图重叠的情况的处理仍然能力不足，表现欠佳。

发明内容

本发明的目的是，针对现有图像二值化技术处理文档图像中局部范围内前背景像素灰度分布发生重叠的情况能力不足，提出了一种新的文档图像二值化方法，不仅能够胜任普通文档图像的处理，对于光照变化、模糊、分辨率不足等低质量文档图像以及中文文档图像表现出比其它方法优越的性能。具体而言涉及一种灰度文档图像或者经过灰度化后彩色文档图像的二值化方法，可适用于扫描仪或者照相机采集的文档图像的处理和OCR(光学字符识别)应用。

为了实现这个目的，本发明做出了三项工作，1)提出了一种基于笔划邻域增强的文档图像二值化方法。通过分析文档图像中字符的笔划邻域信息，利用笔划邻域信息对的字符进行图像增强，在此基础上执行文档图像的二值化，从而获得良好的二值化效果。2)本发明还提出了一种快速前背景像素标定方法，用于优化本发明中的一个步骤。3)在快速前背景像素标定方法中，提出了一种基于Niblack方法改进的求取二值化阈值的方法。

基于笔划邻域增强的文档图像二值化方法主要包括以下的基本步骤：

Step1.图像前背景像素初始标定；

Step2.获取笔划邻域信息；

Step3.基于笔划邻域信息增强文字笔划；

Step4.在笔划增强的图像上进行最终二值化。

步骤1的主要目的在于将文档图像的前背景像素区域初步区分出来，对这两类像素进行标定。这里前景指文档图像中的字符像素区域，背景指文档图像的空白像素区域。可以采用一种二值化方法对图像进行一次二值化来实现。这里使用的二值化方法可以是全局的，也可以是局部自适应的方法。本发明提出了一种快速标定前背景像素的方法，该方法也可视为一种新的二值化方法，具体步骤如下：

Step1.1对图像进行X倍下采样，获得低分辨率图像；

Step1.2在低分辨率图像上使用二值化方法获得二值化阈值面；

Step1.3对二值化阈值面进行X倍上采样，获得原始分辨率阈值面；

Step1.4用原始分辨率阈值面对原始图像二值化，标定前背景像素。

本发明针对Step1.2提出了一种基于Niblack方法的改进方法求取二值化阈值。Niblack方法是一种经典的二值化方法，该方法以灰度局部均值减去局部方差的加权作为二值化阈值。但它在连续背景区域对噪声敏感，容易产生大量的噪声。本发明提出的改进方法通过分析背景区域像素的平均局部方差，计算图像噪声强度，在阈值计算中，用Niblack阈值减去该噪声强度即获得具有较强降噪能力的阈值。其步骤如下：

Step1.2.1利用Niblack方法对图像进行二值化；

Step1.2.2统计背景像素的平均局部方差，以此作为图像噪声强度n的衡量；

Step1.2.3用Niblack阈值减去图像噪声强度n，得到新的阈值。

步骤2和步骤3是本发明的核心部分。在步骤2中，笔划邻域信息主要包括像素的灰度信息、梯度信息和几何信息，以及笔划的几何信息。灰度信息为灰度图像像素的灰度或亮度值，梯度信息指像素与邻域像素比较得到的梯度值和梯度方向。笔划的几何信息主要指笔划的宽度信息，像素的几何信息指像素与笔划的空间关系信息。用“前背景像素距离”来描述像素与笔划的空间关系。它的定义为：前景像素与最近的背景像素间的距离或者背景像素与最近的前景像素间的距离的负值，若像素为前景像素，则还需要根据笔划宽度信息计算其与笔划中心的距离信息。如图4所示。笔划宽度信息由笔划邻域内的前景像素的局部平均前背景像素距离计算得到。

步骤3根据笔划邻域信息，增强文字笔划。增强的目的在于，使笔划邻域内像素的灰度可区分性增强，从而有利于正确区分前背景像素。笔划增强的方法是：对于笔划像素及其邻域像素，对像素梯度方向上若干相邻像素进行灰度拉伸操作，对像素垂直梯度方向上若干相邻像素进行平滑操作，这两种操作的的幅度值受笔划像素的邻域信。同时，这两种操作的的幅度值V受笔划像素的邻域信息约束，由像素的灰度值I、梯度值G和几何信息D三个因素共同决定。操作幅度值V与灰度I和梯度值G成正比例，与像素前背景距离值成反比(，而与像素前背景距离值反方向增长)。在I和G相同情况下，距离越大，操作幅度值越小，且随着前背景像素距离的增长，V降低幅度变小，达到或超过笔划宽度值时候，则V保持不变。通过这种方式来保持增强操作过程的稳定性和可靠性。增强操作将影响相关联的诸像素，同一个像素可能接受若干次操作，每次操作的结果是得到像素灰度值的改变量，将每次的改变量累加存储到一个临时矩阵(缓冲区)内，直至整个图像处理完毕。将改变量的累加值与各个像素的灰度值相加，得到修改后的图像，即笔划增强的图像。具体步骤如下：

Step3.1建立像素灰度值改变量矩阵，矩阵各行列分别与图像各行列对应，所有元素赋初值为0；

Step3.2对像素及其邻域在梯度方向上进行灰度拉伸，灰度值发生改变的像素，将其改变值加入矩阵对应元素；

Step3.3对像素及其邻域在垂直梯度方向上进行平滑操作，灰度值发生改变的像素，将其改变值加入矩阵对应元素；

Step3.4用改变量矩阵各元素值与图像各像素叠加，得到修改后的图像。

在步骤4中，对于经过步骤2、3后得到的笔划增强图像，可以利用步骤1中获得的二值化阈值面进行二值化，也可以重新计算二值化阈值面，对图像进行二值化。

本发明的特点与优越性在于：对模糊或低分辨率等低质量文档图像的二值化效果优于普通方法，特别是在面向字符识别的用途上，能够提高文档图像的字符识别率。同时，该方法应用于中文文档图像的处理所获的的识别率提升相比英文文档图像更为明显。

本发明的原理在于：由于文档图象的分割对象为文字，而文字由笔划组成，可以将笔划视为构成文档图象的基本元素。图5所示为笔划的横截面模型。对于笔划这种线条类型的图像元素，通常，线条中心灰度较低，且较为清晰，而线条边缘部分灰度级较高些，且相对模糊。从线条中心像素出发向背景像素过渡中，灰度的变化先是增大的，到达背景像素区域后，灰度的变化又重新趋缓。也即，在笔划邻域内，横断面方向上梯度的变化是先增加后减小的，如图5中虚线所示。笔划邻域的这个性质是稳定的。对于分割而言，R1、R2代表笔划两侧可以进行分割的合理区域，而P1、P2点则代表最理想的分割位置。好的二值化算法得到的分割点尽可能接近理想分割位置。对于每个字符，将前背景分割点连线得到的封闭曲线称为分割线。模糊图像或者低分辨率图像会导致笔划邻域附近前背景像素灰度差别不大。普通局部自适应方法，一般以字符邻域为基础在原图上求取阈值，区分能力不足，从而导致容易导致过分割或欠分割错误发生。而在笔划邻域进行像素增强，可提高笔划邻近区域的前背景像素的可分性。一方面，当欠分割发生的时候，说明背景像素与分割阈值更接近，增强操作将使背景像素远离分割阈值；另一方面，而当过分割发生的时候，说明前景像素与分割阈值更接近，增强操作将可使前景像素远离分割阈值。这两种情况下基于笔划邻域的增强都有可能使像素灰度相对于分割阈值面向正确的方向调整，从而使分割线发生调整，获得更好的分割结果。而结合笔划邻域的空间几何信息，控制图像增强操作中的强度，可以防止过度增强操作，保证该过程的稳定性和可靠性。

附图说明

图1是本发明所述基于笔划增强的二值化方法的流程图。

图2是本发明所述的快速前背景像素标定方法的流程图。

图3是本发明所述的基于Niblack方法改进的求取二值化阈值的方法流程图。

图4是前背景像素距离示意图。

图5是笔划横断面模型图。

具体实施方式

以下介绍本发明的优选实施例，该部分仅仅是对本发明的举例说明，而非对本发明及其应用或用途的限制。根据本发明得出的其它实施方式，也同样属于本发明的技术创新范围。方案中有关参数的设定也并不表明，只有举例值可以使用。

实施例：

该实施例把本发明的整个方法应用于图像的二值化过程，如图1所示。对于本方法而言，输入图像为一个灰度图像I(x，y)，灰度值为0代表黑色，灰度值为255代表白色，0到255之间的值为从黑色到白色的均匀渐进变化灰度级，文档图像中字符的灰度级别低于背景灰度级别。该实施例流程如图1所示，执行以下步骤：

步骤1，前背景像素初始标定

初始分割的目的在于以较高的效率标定前背景像素区域，获得一个初始的前背景分割线，从而为增强算法的实施做好准备。这个阶段，需要克服背景的亮度变化和抑制噪声。我们首先对图象进行X倍下采样，在图象低分辨率版本上计算二值化阈值面。再通过上采样，可以获得原始尺寸的分割阈值面，以此分割阈值面对图像实施分割操作，标定前景区域。方案流程如图2所示，为：

1)对图像进行X＝4倍下采样，得到低分辨率图像L(x，y)。

2)利用本发明提出的改进后的Niblack方法获取图像L(x，y)的二值化阈值面T(x，y)。

Niblack方法用局部平均亮度(M(x，y))减去局部平均方差的加权(K·V(x，y))作为二值化阈值，各参数之间的关系如式(1)表示：

T(x，y)＝M(x，y)-K·V(x，y) (1)

本发明改进后的阈值计算过程如式(2)所示，由局部平均亮度(M(x，y))减去局部平均方差的加权(K·V(x，y))与图像噪声强度得到：

T(x，y)＝M(x，y)-K·V(x，y)-n (2)

M(x，y)和V(x，y)分别表示局部平均亮度和局部方差，局部窗口大小为w，n为图像噪声强度，利用式(3)给出的关系确定

\{\begin{matrix} n = \frac{1}{N} \underset{I (x_{i}, y_{i}) > T_{1} (x_{i}, y_{i})}{Σ} V (x_{i}, y_{i}) \\ T_{1} (x, y) = M (x, y) - K_{1} \cdot V (x, y) \end{matrix} - - - (3)

T₁即为Niblack公式得到的阈值，N为T₁阈值基础上背景像素数目，K₁取0.4。局部窗口大小w取3～5比较合适，K取0.4。由此获得较为干净的背景区域，该步骤的流程图如图3所示。

3)对T(x，y)进行X＝4倍上采样，得到原始分辨率的二值化阈值面T′(x，y)。

4)利用T′(x，y)对前背景像素区域进行标定，获取标号图像F(x，y)，若I(x，y)＜T′(x，y)则表明该像素(x，y)为前景像素，标记F(x，y)＝1，否则该像素为背景像素，标记F(x，y)＝0。

步骤2，获取笔划邻域信息

令d(x，y)为各像素的前背景像素距离，g(x，y)和(x，y)分别代表各像素的梯度值和梯度方向。

为局部前景像素的平均前背景像素距离。前背景像素距离用式(4)表示：

\{\begin{matrix} d_{i} = \min_{p_{j} &Element; background} dis \tan ce (p_{i}, p_{j}), if p_{i} &Element; foreground \\ d_{j} = \underset{p_{i} &Element; foreground}{- \min} dis \tan ce (p_{j}, p_{i}), if p_{j} &Element; background \end{matrix} - - - (4)

这里，forground代表前景，background代表背景，p为各像素点。

1)计算图像上各像素的前背景像素距离

2)对前景像素和与|d(x，y)|≤D_b的背景像素计算梯度，记录其梯度值g(x，y)和梯度方向(x，y)；

3)计算笔划宽度信息，用局部前景像素的平均前背景像素距离

来表示该信息，局部窗口大小为W；

D_b取1，或其它方案可以取大于1的值。W可以取15或其它值。

步骤3，基于笔划邻域信息的笔划增强

将前背景像素距离大于等于-1的像素作为目标像素，在像素的3X3邻域内，在梯度方向上进行灰度拉伸，垂直梯度方向上进行平滑操作。当像素符合

| d (x, y) | < \overset{&OverBar;}{d} (x, y)

时，表明像素靠近分割线，可以使用较强的拉伸幅度幅度。否则增强幅度需要受到限制，以防止出现一些前景像素在分割上发生翻转。该步骤数据处理过程如下：

1)对目标像素执行灰度拉伸操作，该数据变换所得到的灰度修改量由关系式(5)确定：

ΔI₁(x，y)＝g(x，y)·(L(x，y)-1)/2 (5)

其中拉伸系数可以由以下关系式确定：

L (x, y) = \{\begin{matrix} (\overset{&OverBar;}{d} (x, y) + 1) / (| d (x, y) | + 1), ifd (x, y) < \overset{&OverBar;}{d} (x, y) \\ (\overset{&OverBar;}{d} (x, y) + 1) / \overset{&OverBar;}{d} (x, y), ifd (x, y) &GreaterEqual; \overset{&OverBar;}{d} (x, y) \\ 1.5, if \overset{&OverBar;}{d} (x, y) = 1 \end{matrix} - - - (6)

2)对目标像素执行平滑操作，如采用式(7)所示变换，获得相应的灰度修改量

Δ I_{2} (x, y) = (\underset{i = 1, . . ., n}{Σ} I (x_{i}, y_{i}) \cdot C + I (x, y)) / (1 + C \cdot n) - I (x, y), - - - (7)

I(x_i，y_i)为垂直梯度方向上的邻域像素，n取2，C为邻域像素权重，取0.5～1。

3)获得所有目标像素的的像素值修改量ΔI₁(x，y)、ΔI₂(x，y)后，与原始图像的像素值叠加，得到新的像素值为：

I′(x，y)＝I(x，y)+ΔI₁(x，y)+ΔI₂(x，y) (8)

步骤4，最终二值化

利用T′(x，y)对前背景像素区域进行二值化，若I′(x，y)＜T′(x，y)则表明该像素(x，y)为前景像素，否则该像素为背景像素。

该步骤中，其它方案可以在该步骤中对I′(x，y)一次新的阈值计算进行二值化。

Claims

1.一种文档图像二值化方法，包括以下步骤：

Step 1.图像前背景像素初始标定；

Step 2.获取笔划邻域信息；

Step 3.基于笔划邻域信息增强文字笔划；

Step 4.在笔划增强的图像上进行最终二值化。

2.一种快速前背景像素标定方法，包括以下步骤：

Step 1.1对图像进行X倍下采样，获得低分辨率图像；

Step 1.2在低分辨率图像上使用二值化方法获得二值化阈值面；

Step 1.3对二值化阈值面进行X倍上采样，获得原始分辨率阈值面；

Step 1.4利用原始分辨率阈值面对原始图像二值化，标定前背景像素。

3.一种改进的基于Niblack方法的二值化阈值求解方法，包括以下步骤：

Step 1.2.1利用Niblack方法对图像进行二值化；

Step 1.2.2统计背景像素的平均局部方差，以此作为图像噪声强度n；

Step 1.2.3用Niblack阈值减去图像噪声强度n，得到新的阈值。

4.如权利要求1所述的文档图像二值化方法，其输入图像为灰度图像，或者由彩色图像转换得到的灰度图像，本方法主要面向文档图像类型，但不限于文档图像类型，也可以用于处理其它类型图像。

5.如权利要求1所述的文档图像二值化方法，其特征是：在步骤Step2中，使用的笔划邻域信息包括像素的灰度信息、梯度信息和几何信息，以及笔划的几何信息，灰度信息指灰度文档图像像素的灰度或亮度值，梯度信息指像素与邻域像素比较得到的梯度值和梯度方向，笔划的几何信息主要指笔划的宽度信息，像素的几何信息指像素与笔划的空间关系信息，用“前背景像素距离”来描述像素与笔划的空间关系，它的定义为：前景像素与最近的背景像素间的距离或者背景像素与最近的前景像素间的距离的负值，若像素为前景像素，则还需要根据笔划宽度信息计算其与笔划中心的距离信息，笔划宽度信息由笔划邻域的前景像素的平均前背景像素距离中计算得到。

6.如权利要求1所述的文档图像二值化方法，其特征是：在步骤Step3中，根据笔划邻域信息，增强文字笔划，笔划增强的方法是：对于笔划像素及其邻域像素，在像素梯度方向上进行灰度拉伸操作，在像素垂直梯度方向上进行平滑操作，同时，这两种操作的的幅度值受笔划像素的邻域信息约束，由笔划像素的灰度信息、梯度信息和几何信息三个因素共同决定，操作幅度值与灰度和梯度值成正比，与前背景像素距离成反比，操作将影响相关联的诸像素，同一个像素可能接受多次操作，操作的结果是得到像素灰度值的改变量，将每次的改变量累加存储到一个临时缓冲区内，直至整个图像处理完毕，将改变量的累加值与各个像素的灰度相加，得到修改后的图像，即笔划增强的图像，具体步骤如下：

Step 3.1建立像素灰度值改变量矩阵，矩阵各行列分别与图像各行列对应，所有元素赋初值为0；

Step 3.2对像素及其邻域在梯度方向上进行灰度拉伸，灰度值发生改变的像素，将其改变值加入矩阵对应元素；

Step 3.3对像素及其邻域在垂直梯度方向上进行平滑操作，灰度值发生改变的像素，将其改变值加入矩阵对应元素；

Step 3.4用改变量矩阵各元素值与图像各像素叠加，得到修改后的图像。

7.如权利要求1所述的文档图像二值化方法，其特征是：在步骤Step4中，对于经过步骤Step 2、Step 3后得到的笔划增强图像，可以利用Step1中获得的二值化阈值面进行二值化，也可以重新计算二值化阈值面，对图像进行二值化。

8.如权利要求2所述的快速前背景像素标定方法，其特征是：该方法也可视为是一种二值化方法，可用于图像二值化的过程中。

9.如权利要求3所述的改进的基于Niblack方法的二值化阈值求解方法，其特征是：该方法也可视为一种二值化方法，可用于图像二值化的过程中。

10.如权利要求1或6所述的文档图像笔划增强方法，其特征是：对于笔划像素及其邻域像素，在梯度方向上进行灰度拉伸操作，在垂直梯度方向上进行平滑操作，这两种操作的的幅度值受笔划像素的邻域信息约束。