CN106096610B

CN106096610B - 一种基于支持向量机的文档图像二值化方法

Info

Publication number: CN106096610B
Application number: CN201610421725.7A
Authority: CN
Inventors: 熊炜; 赵诗云; 徐晶晶; 赵楠; 刘敏; 王改华; 李敏; 刘小镜; 吴俊驰
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2019-04-12
Anticipated expiration: 2036-06-13
Also published as: CN106096610A

Abstract

本发明公开了一种基于支持向量机的文档图像二值化方法，包括彩色图像灰度化、文档图像分块、提高图像块的局部对比度、特征参数提取、SVM阈值分类、图像块拼接、笔画宽度估计、局部二值化等八个步骤；本发明采用最小均值法对彩色图像进行灰度化，所得灰度图像具有彩色无关性；定义的局部对比度，不仅能够补偿图像亮度变化产生的影响，还综合考虑了图像邻域内所有像素对图像局部对比度的归一化贡献；采用SVM阈值分类法准确性高，可靠性高；采用逐行扫描法进行笔画宽度估计，对文档图像分辨率变化具有较好的鲁棒性；本发明能够较好地保留字符笔画细节，并在有效分割字符前景的同时，较好地抑制墨迹浸润、页面污渍、纹理背景及光照不均等现象。

Description

一种基于支持向量机的文档图像二值化方法

技术领域

本发明属于数字图像处理、模式识别与机器学习技术领域，涉及一种文档图像二值化方法，特别是涉及一种基于支持向量机(SVM)的低质量文档图像二值化方法。

背景技术

文档分析与识别(DAR)技术已广泛应用于印刷体字符及公式识别、手写文字识别、文档图像分割、视频字幕提取、文本信息检索等领域，主要包括图像采集、预处理、二值化、版面分析、字符识别、建立索引等过程。图像二值化是其中一个关键处理步骤，它直接影响DAR系统的性能。然而，受图像对比度、墨迹浸润、页面污渍或光照不均等因素的影响，使得针对此类低质量文档图像的二值化具有极大的挑战。

目前，学术界提出了许多文档图像二值化算法，可大致分为全局阈值法和局部阈值法。全局阈值法采用单一的阈值将文档图像分为字符(前景)与背景两大类，如Otsu算法利用图像的灰度直方图选择一个最优阈值，使得经阈值分割后的前景与背景像素的类间方差最大。Otsu算法对于前景和背景差别较大，即直方图具有显著双峰特征的图像具有较好的分割效果，但在处理低质量文档图像时，会丢失部分甚至全部字符笔画细节。

局部阈值法(也称为自适应阈值法)则通过滑动窗口与文档图像卷积，从而实现在图像不同部分设定不同阈值，如Niblack、Sauvola、Wolf等算法利用像素邻域内的灰度均值和标准差来构建阈值分割曲面，其性能有赖于滑动窗口的尺寸及字符笔画的粗细。针对不同质量的文档图像需动态调整窗口尺寸，以获得最佳的阈值处理结果，当图像对比度较低时，会产生大量噪声点或将背景像素误判为前景像素。

国内外研究人员还提出了许多其它方法，如背景估计法、局部对比度法、笔画边缘检测法、梯度归一化与显著图法、纹理分析法、拉普拉斯能量法、误差扩散法、谱聚类法以及混合算法等，其中大部分方法的计算复杂度相对较高，且不能很好地解决受墨迹浸润、页面污渍、背景纹理等退化因素影响的低质量文档图像二值化问题，或者仅能够适用于某些特定场景(如光照不均匀条件)。

发明内容

为了解决上述技术问题，本发明提供了一种基于支持向量机(SVM)的低质量文档图像二值化方法。

本发明所采用的技术方案是：1.一种基于支持向量机的文档图像二值化方法，其特征在于，包括以下步骤：

步骤1：判断文档图像是否为彩色图像；

若是，则对彩色图像进行灰度化处理，然后执行下述步骤2；

若否，则继续执行下述步骤2；

步骤2：对文档图像进行分块；

对于每幅图像和其对应的标准GT图像都按照N×N的大小进行分块，这样每幅图片都被分成了N²块图像区域，N≥5；

所述N²块图像区域包含了三种不同类型：①只含有背景，没有任何前景文本信息；②文本前景和复杂背景融合较好，其各自占图像块比例约为50％；③文本前景占图像块比例小于10％，图像中的其他部分都是复杂的背景区域；

步骤4：图像块的特征参数提取；

步骤5：SVM阈值分类模型训练，包括以下子步骤：

步骤5.1：将步骤3中每个经过局部对比度增强后的图像块分别以T₀、T_Otsu和T_min作为阈值进行粗分割，分割的结果分开存储；

对于步骤2中所述第①种情况，直接将阈值取为0，记为T₀＝0，这样背景区域会变成全白而前景文本全黑；对于步骤2中所述第②种情况，将阈值取为该图像块的Otsu最佳阈值，记为T_Otsu；对于步骤2中所述第③种情况，将阈值设定为该块周边图像块中Otsu阈值的最小值，记为T_min；

步骤5.2：将每幅图像的标准GT图像都也按照相同大小进行N×N分块，分别将T₀、T_Otsu和T_min分割后的结果图和它对应的标准GT图像块进行对比，选取三种指标作为参考，即：F值(F-measure)、峰值信噪比(PSNR)、结构相似度(SSIM)，分别输出对应二值化图像的参数评估数值表；

步骤6：图像块拼接；

步骤7：笔画宽度估计；

步骤8：局部二值化。

作为优选，步骤1中所述对彩色图像进行灰度化处理，是采用最小均值法对彩色文档图像f(x,y)进行灰度化处理，所得灰度图像具有彩色无关性，计算公式为：

其中f_i(x,y)分别为R、G、B三种颜色的分量图像，i可取R、G、B三个分量，f_gray(x,y)为变换后的灰度图像。

作为优选，步骤3中所述提高图像块的局部对比度，其计算公式为：

其中f_max(x,y)、f_min(x,y)和f_mean(x,y)分别表示图像在以(x,y)为中心的3×3邻域内的亮度最大值、最小值和平均值；为了不使分母为0，ε是无限趋近于零的值。

作为优选，步骤3中所述图像块的特征参数包括均值μ、标准差σ、相对平滑度R、三阶矩u₃(x)、一致性U(x)、熵e(x)、T_Otsu、T_Otsu-T_min、灰度信息、u、deta；

其计算公式分别为：

反应图像的平均灰度；

反应灰度级的变化程度，即图像粗糙程度的质量；

R＝1-1/(1+σ²)，反应了图像块的平滑性；

用于确定图像直方图的对称性；

反应图像的均匀程度；

表示图像的复杂程度和均匀程度；

T_Otsu：使用Otsu算法计算出来的分割阈值；

T_Otsu-T_min：将该图像块采用Otsu算法计算出的最优分割阈值减去其相邻图像块中Otsu阈值的最小值；T_min为该块邻域Otsu阈值的最小值；

灰度信息，是像素的灰度值，它反映图像块的均匀程度；

其中：L表示图像灰度级分辨率，i∈[0,L-1]表示图像灰度级取值，x_i表示图像灰度级为i时像素个数，p(x_i)表示图像的归一化直方图。

作为优选，步骤5所述SVM阈值分类模型训练，其SVM建模过程包括以下子步骤：

步骤5.1：选定测试集和训练集；

本发明选取50张低质量的文档图像作为分类器的训练样本，测试样本共42张，均来自国际文档二值化竞赛提供的低质量文本；

步骤5.2：数据预处理；

训练样本和测试样本图像都要按照上述步骤，经过灰度化和分块，提高每块的局部对比度，计算11个特征参数；

步骤5.3：利用训练集训练SVM，分类结果如表1；

表1为预测分类实验结果

步骤5.4：计算分类准确率；

本发明选取1250幅图像作为训练样本，1050幅图像作为测试样本，通过和测试组标准分类标签的比对，分类的准确率达到98.1％。

步骤5.5：预测测试集；

将经过数据预处理后的测试样本输入分类器，得到分类结果。

作为优选，步骤6中所述图像块拼接，是按照在图像分块时各个图像块在原图中的位置标记进行拼接。

作为优选，步骤7中所述笔画宽度估计，是采用Canny算子快速得到边缘分布图像；从左至右依次扫描，当遇到第一个边缘像素点时，记下坐标位置x₁，接着继续扫描，记下下一个边缘像素点的坐标位置x₂，那么边缘水平间距为：d＝x₂-x₁；重复扫描，直至整幅图像扫描完成，统计d的分布，那么笔画宽度SWE为：其中H表示出现此水平间距的次数。

作为优选，步骤8中所述局部二值化，是将滑动窗口尺寸设置为笔画宽度的两倍，采用式进行局部二值化，其中f(x,y)为(x,y)处的像素灰度值，局部阈值T的计算公式为：

T(x,y)＝(1-k)×μ(x,y)+k×f_min+k×[μ(x,y)-f_min]×σ(x,y)/R

其中μ(x,y)和σ(x,y)分别表示以(x,y)为中心的邻域内所有“种子”像素的灰度平均值和标准偏差，f_min为图像的最小灰度值，R为图像的最大标准偏差，常数k的取值范围介于0和1。

本发明与现有技术相比，其显著优点在于：

(1)本发明中采用的最小均值法对彩色图像进行灰度化，所得灰度图像具有彩色无关性；

(2)本发明定义的局部对比度，不仅能够补偿图像亮度变化产生的影响，还综合考虑了图像邻域内所有像素对图像局部对比度的归一化贡献；

(3)本发明采用的SVM阈值分类法准确性高，可靠性高；

(4)本发明采用的逐行扫描法进行笔画宽度估计，对文档图像分辨率变化具有较好的鲁棒性；

(5)本发明能够较好地保留字符笔画细节，并在有效分割字符前景的同时，

较好地抑制墨迹浸润、页面污渍、纹理背景及光照不均等现象。

附图说明

图1：本发明实施例的流程图；

图2：本发明实施例的SVM建模和预测分类流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于支持向量机的文档图像二值化方法，包括以下步骤：

步骤1：彩色图像灰度化(针对灰度图像，可省略此步骤)；

研究人员目前主要采用分量加权平均、平均值、最大值等方法对彩色图像进行灰度化，这些方法更多是基于人眼视觉特性的建模。

本发明采用最小均值法对彩色文档图像f(x,y)进行灰度化处理，所得灰度图像具有彩色无关性，计算公式为：

步骤2：文档图像分块；

对于每幅图像按照N×N的大小进行分块，这样每幅图片都被分成了N²块图像区域。若N≥5，会大大提高算法的时间复杂度，本发明采用N＝5对图像分块，即将每幅图片分成25块；

通过分析发现这25个图像区域包含了三种不同类型：①只含有背景，没有任何前景文本信息；②文本前景和复杂背景融合较好，其各自占图像的比例约为50％；③文本前景占图像块比例小于10％的图像区域，图像中的其他部分都是背景区域。

步骤3：提高图像块的局部对比度；

Bernsen方法定义的图像局部对比度为C(x,y)＝f_max(x,y)-f_min(x,y)，其中f_max(x,y)和f_min(x,y)分别表示图像在以(x,y)为中心的某邻域内的亮度最大值和最小值。类似于图像梯度，它对图像的亮度变化非常敏感，当文本像素位于较亮的背景区域时，其局部对比度较大，当文本像素位于较暗的背景区域时，则局部对比度将变小。为了补偿其对图像亮度变化产生的影响，Su等人采用Herk局部图像对比度定义但其忽略了图像邻域内的非极值像素对图像局部对比度的归一化贡献。

为了解决这个问题，本发明将图像的局部对比度重新定义为：

其中f_max(x,y)、f_min(x,y)和f_mean(x,y)分别表示图像在以(x,y)为中心的3×3邻域内的亮度最大值、最小值和平均值。为了不使分母为0，ε是无限趋近于零的值。

步骤4：特征参数提取；

要判断每块图像对应的最优阈值，其本质就是一个图像的三分类问题。传统的SVM算法在设计之初是为二值分类问题设计的，本发明通过组合多个二分类器来构造分类器，从而实现三分类。

考虑到每个图像块在分块后经过了灰度化和局部对比度增强操作，可以将传统的6个图像纹理参数作为特征参数，即：

均值：

均值反应了图像区域的平均灰度；

标准差：

标准差反映灰度级的变化程度，即图像粗糙程度的度量；

相对平滑度：R＝1-1/(1+σ²)；

相对平滑度是对图像粗糙程度的度量，它反映了图像块的平滑性；

三阶矩：

三阶矩用于确定该图像直方图的对称性；

一致性：

一致性可以反映是图像的均匀程度；

熵：

熵可以用来表征图像的复杂程度或者非均匀程度；

本发明还将T_Otsu和T_Otsu-T_min值作为特征参数输入SVM分类器，同时，灰度信息作为反应图像均匀程度的关键因素，也作为度量图像的参数指标之一。此外，本发明还提出两个新的参数指标，即：

当deta值很高时，图像块中黑色像素和白色像素的融合度很高，即图像很平滑，这样就可以直接采用T_Otsu作为图像块分割的阈值；另一方面，当deta值很低但是u值相对很高时，通常将阈值设为T₀。

步骤5：SVM阈值分类模型训练；

步骤5.2：将每幅图像的标准GT图像都也按照相同大小进行5×5分块，分别将T₀、T_Otsu和T_min分割后的结果图和它对应的标准GT图像块进行对比，选取三种指标作为参考，即：F值(F-measure)、峰值信噪比(PSNR)、结构相似度(SSIM)，分别输出对应二值化图像的参数评估数值表；

本发明选取50张低质量的文挡图像作为SVM阈值分类器的训练样本，测试样本共42张，均来自国际文档图像二值化竞赛提供的低质量文本。对训练的50张图像样本按照上述方法灰度化，每张图像分成5×5大小的图像块，这样SVM的输入图像块样本数目为1250块，对这1250个图像块进行局部对比度增强，然后用提高局部对比度后的分块图计算11个特征性状参数。对于测试的42张图像样本也按照相同的方法处理，分块后测试样本的总量为1050块，同时也需对每块图像提取11个特征性状参数用于模型的预测。

请见图2，本发明的SVM建模过程包括以下子步骤：

步骤5.1：选定测试集和训练集；

选取50张低质量的文档图像作为分类器的训练样本，测试样本共42张文档图像，均来自国际文档二值化竞赛提供的低质量文本；

步骤5.2：数据预处理；

训练样本图像和测试样本图像均进行灰度化和分块处理，提高每块的局部对比度，计算11个特征参数；

步骤5.3：利用训练集训练SVM，分类结果如表1；

表1为预测分类实验结果

步骤5.4：计算分类准确率；

步骤5.5：预测测试集；

将经过数据预处理后的测试样本输入训练好的分类器，得到分类结果。

步骤6：图像块拼接；

图像块经过步骤5的SVM分类后，可以得到1050份测试图像块的分类阈值类别，根据不同的类别选取不同的阈值进行二值化处理。然后，将相应的图像块进行拼接。在图像分块时，需要将各个图像块在原图中的位置进行标记，在拼接时按照对应标记进行拼接，这样可以减少工作量。

步骤7：笔画宽度估计；

采用Canny算子快速得到边缘分布图像。从左至右依次扫描，当遇到第一个边缘像素点时，记下坐标位置x₁，接着继续扫描，记下下一个边缘像素点的坐标位置x₂，那么边缘水平间距为：d＝x₂-x₁。重复扫描，直至整幅图像扫描完成，统计d的分布，那么笔画宽度SWE为：其中H表示出现此水平间距的次数。

步骤8：局部二值化；

经过步骤5的笔画宽度估计后，将滑动窗口尺寸设置为笔画宽度的两倍，采用式进行局部二值化，其中f(x,y)为(x,y)处的像素灰度值，局部阈值T的具体计算公式为：

T(x,y)＝(1-k)×μ(x,y)+k×f_min+k×[μ(x,y)-f_min]×σ(x,y)/R

其中μ(x,y)和σ(x,y)分别表示以(x,y)为中心的邻域内所有“种子”像素的灰度平均值和标准偏差，f_min为图像的最小灰度值，R为图像的最大标准偏差。常数k的取值范围介于0和1。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于支持向量机的文档图像二值化方法，其特征在于，包括以下步骤：

步骤1：判断文档图像是否为彩色图像；

若是，则对彩色图像进行灰度化处理，然后执行下述步骤2；

若否，则继续执行下述步骤2；

步骤2：对文档图像进行分块；

将每幅文档图像分成N×N个图像块，这样每幅图片都被分成了N²块图像区域，N≥5；

所述N²块图像区域包含了三种不同类型：①只含有背景，没有任何前景文本信息；②文本前景和复杂背景融合较好，其各自占图像块比例约为50％；③包含前景文本信息，文本前景占图像块比例小于10％，图像中的其他部分都是复杂的背景区域；

步骤3：提高图像块的局部对比度；

步骤4：图像块的特征参数提取；

步骤5：SVM阈值分类模型训练，包括以下子步骤：

步骤5.2：将每幅图像的标准GT图像分成N×N个图像块，分别将T₀、T_Otsu和T_min分割后的结果图和它对应的标准GT图像块进行对比，选取三种指标作为参考，即：F值、峰值信噪比、结构相似度，分别输出对应二值化图像的参数评估数值表；

步骤6：图像块拼接；

步骤7：笔画宽度估计；

步骤8：局部二值化。

2.根据权利要求1所述的基于支持向量机的文档图像二值化方法，其特征在于，步骤1中所述对彩色图像进行灰度化处理，是采用最小均值法对彩色文档图像f(x,y)进行灰度化处理，所得灰度图像具有彩色无关性，计算公式为：

其中f_i(x,y)分别为R、G、B三种颜色的分量图像，i取R、G、B三个分量，f_gray(x,y)为变换后的灰度图像。

3.根据权利要求1所述的基于支持向量机的文档图像二值化方法，其特征在于，步骤3中所述提高图像块的局部对比度，其计算公式为：

4.根据权利要求1所述的基于支持向量机的文档图像二值化方法，其特征在于，步骤4中所述图像块的特征参数包括均值μ、标准差σ、相对平滑度R、三阶矩u₃(x)、一致性U(x)、熵e(x)、T_Otsu、T_Otsu-T_min、灰度信息、u、deta；其计算公式分别为：

反应图像的平均灰度；

反应灰度级的变化程度，即图像粗糙程度的质量；

R＝1-1/(1+σ²)，反应了图像块的平滑性；

用于确定图像直方图的对称性；

反应图像的均匀程度；

表示图像的复杂程度和均匀程度；

T_Otsu，使用Otsu算法计算出来的分割阈值；

灰度信息，是像素的灰度值，它反映图像块的均匀程度；

5.根据权利要求4所述的基于支持向量机的文档图像二值化方法，其特征在于：步骤5所述SVM阈值分类模型训练，其SVM建模过程包括以下子步骤：

步骤5.1：选定测试集和训练集；

步骤5.2：数据预处理；

训练样本图像和测试样本图像均进行灰度化和分块处理，提高每块的局部对比度，计算11个特征参数；所述11个特征参数包括μ、标准差σ、相对平滑度R、三阶矩u₃(x)、一致性U(x)、熵e(x)、T_Otsu、T_Otsu-T_min、灰度信息、u、deta；

步骤5.3：利用训练集训练SVM，分类结果如表1；

表1为预测分类实验结果

步骤5.4：计算分类准确率；

步骤5.5：预测测试集；

6.根据权利要求1所述的基于支持向量机的文档图像二值化方法，其特征在于：步骤6中所述图像块拼接，是按照在图像分块时各个图像块在原图中的位置标记进行拼接。

7.根据权利要求1所述的基于支持向量机的文档图像二值化方法，其特征在于：步骤7中所述笔画宽度估计，是采用Canny算子快速得到边缘分布图像；从左至右依次扫描，当遇到第一个边缘像素点时，记下坐标位置x₁，接着继续扫描，记下下一个边缘像素点的坐标位置x₂，那么边缘水平间距为：d＝x₂-x₁；重复扫描，直至整幅图像扫描完成，统计d的分布，那么笔画宽度SWE为：其中H表示出现此水平间距的次数。

8.根据权利要求1所述的基于支持向量机的文档图像二值化方法，其特征在于：步骤8中所述局部二值化，是将滑动窗口尺寸设置为笔画宽度的两倍，采用式进行局部二值化，其中f(x,y)为(x,y)处的像素灰度值，局部阈值T的计算公式为：

T(x,y)＝(1-k)×μ(x,y)+k×f_min+k×[μ(x,y)-f_min]×σ(x,y)/R