CN103413271B

CN103413271B - 基于局部信息的文档图像校正方法

Info

Publication number: CN103413271B
Application number: CN201310303996.9A
Authority: CN
Inventors: 宋永红; 张云; 张元林
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2016-03-02
Anticipated expiration: 2033-07-18
Also published as: CN103413271A

Abstract

基于局部信息的文档图像校正方法，首先通过文档图像的平均梯度值确定文本行的尺度，然后通过空白行的自相似性进行文本行跟踪，得到文本行的上、下边界，再通过文字笔画间距确定竖直笔画边界，完成对文本行的分割处理，处理完后，得到以一个以上、下边界和竖直边界划分得到的四边形，该四边形所包围的图像内容就是一个文字块处理单元；最后针对每个文字块处理单元，依次进行倾斜形变校正以及局部双线性插值校正，即完成对整幅文档图像的校正；本方法综合考虑了处理速度及扭曲文档图像的复杂情况，具有校正过程速度较快、校正效果好的特点。

Description

基于局部信息的文档图像校正方法

技术领域

本发明涉及一种文档图像校正方法，具体涉及一种基于局部信息的文档图像校正方法。

背景技术

当前已经存在一些针对文档图像进行扭曲校正的方法和技术：文献[1,2]提出了一种基于柱面模型的厚积文档图像校正方法，该方法假设文档图像表面呈柱面形状，然后根据文本行的拟合曲线来还原柱面模型并进行文档图像的恢复。该方法实现简单、效果较好，但是对扭曲形式要求较苛刻，即柱面的母线与图像平面完全平行，适应情况较差。文献[3,4]提出了一种基于分割的文档图像校正技术，该方法首先对文字行的上下边界与文字的竖直笔画边界进行切分，然后根据这些上下边界和数值笔画边界构成的小四边形进行校正，该方法与本发明方法的流程相似，但是该方法过于依赖竖直笔画的切割，因此对汉字、日本字文档图像的校正效果不太理想。

参考文献

[1]HuaiguCao,XiaoqingDing,ChangsongLiu.Rectifyingthebounddocumentimagecapturedbythecamera:amodelbasedapproach.Proceedings.SeventhInternationalConferenceonDocumentAnalysisandRecognition,2003.

[2]HuaiguCao,XiaoqingDing,ChangsongLiu.Acylindricalsurfacemodeltorectifythebounddocumentimage.NinthIEEEInternationalConferenceonComputerVision,2003.

[3]ShijianLu,ChewLimTan.Therestorationofcameradocumentsthroughimagesegmentation.In7thIAPRWorkshoponDocumentAnalysisSystems,2006.

[4]GaofengMENG,ShimingXIANG,NanningZHENG.Non-parametricIlluminationCorrectionforScannedDocumentImagesviaConvexHulls.IEEETransactionsonPatternAnalysisandMachineIntelligence(TPAMI),2012(OnlineAvailable).

发明内容

为了解决上述现有技术存在的问题，本发明的目的在于提供一种基于局部信息的文档图像校正方法，综合考虑了处理速度及扭曲文档图像的复杂情况，具有校正过程速度较快、校正效果好的特点。

为达到以上目的，本发明采用如下技术方案：

基于局部信息的文档图像校正方法，首先通过文档图像的平均梯度值确定文本行的尺度，然后通过空白行的自相似性进行文本行跟踪，得到文本行的上、下边界，再通过文字笔画间距确定竖直笔画边界，完成对文本行的分割处理，处理完后，得到以一个以上、下边界和竖直边界划分得到的四边形，该四边形所包围的图像内容就是一个文字块处理单元；最后针对每个文字块处理单元，依次进行倾斜形变校正以及局部双线性插值校正，即完成对整幅文档图像的校正；

所述通过空白行的自相似性进行文本行跟踪的具体方法为：通过文档图像的平均梯度值确定了文本行的尺度，进而能够确定矩形追踪窗口的大小，要求该窗口内只包含背景点，若不符合要求，则微调窗口的位置，直到符合要求为止，考虑图像可能存在的随机噪声及估算的窗口大小误差，规定窗口中的背景像素数比窗口面积大于等于规定阈值即符合要求；窗口选定后，以该窗口中心为原点x₀，选定半径s与角度步长θ_i，通过归一化相关系数为度量，搜索并记录与该窗口最相似的邻近窗口，判断若搜索到的最相似的邻近窗口不是边界窗口，则以该最相似的邻近窗口为当前窗口重复窗口搜索过程，直到其最相似的邻近窗口为边界窗口时，停止搜索，即完成了通过空白行的自相似性进行文本行跟踪的过程。

所述局部双线性插值校正的具体方法为：文本行在扭曲形变后大小和形状都会有改变，但不同行列的文字形变并不一定相同，因此再将待处理窗口划分成更小的子窗口进行恢复，对待处理窗口进行水平分割，认为分割后的子窗口为标准矩形窗口，且子窗口中所有形变完全一致；同时，根据待处理窗口的大小，能够估算出其被校正后的矩形窗口的大小和位置；最后，针对每个子窗口依次进行双线性插值，将子窗口中的失真内容恢复到其对应的校正后的矩形窗口中，形成多个文字块窗口，依次对每个文字块窗口进行处理，直到所有的文字块窗口都被处理完后，完成输入文档图像的校正过程。

所述的通过文档图像的平均梯度值确定文本行的尺度的具体方法为：首先对文档图像通过高斯金字塔模型进行降采样，得到不同级高斯金字塔图像，然后计算每级高斯金字塔图像的平均梯度值，该平均梯度值的峰值反映了图像文本行的尺度。

所述确定竖直笔画边界的具体方法为：以文字行跟踪后得到的每个文本框为处理单元，首先求取每个文本框的最小面积外接矩形，然后以l为步长，沿着该外接矩形较长边的方向进行等分切割，得到分割后的小矩形框，依次判断每个小矩形框内是否包含前景点，若连续多个小矩形框中都不含前景点，则判断其为竖直笔画边界。

本发明和现有技术相比，具有如下优点：

1.基于空白行自相似性的文本行跟踪过程速度较快、鲁棒性较好。

2.校正效果对文本块分割时竖直边界确定的依赖性较小，可适应较多的语种及较复杂的文字排版。

3.基于局部信息的校正技术减小了文字块之间的相互影响，可处理不同部分存在不同扭曲形式的文档图像。

附图说明

图1某文档图像在不同高斯金字塔图像的截图及其平均梯度值，其中：图1a是降采样级数为L1时的截图，图1b是降采样级数为L6时的截图，图1c是降采样级数为L10时的截图，图1d是降采样级数为L18时的截图，图1e是不同金字塔图像的平均梯度值即不同降采样级数对应的平均梯度值曲线图。

图2是文本行及其空白行部分示意图。

图3是空白行跟踪结果示意图，其中：图3a是是空白行跟踪结果示意图，图3b是空白行跟踪结果局部放大图。

图4是得到与文本扭曲曲线全完贴合的跟踪线。

图5是文本行等间距分割得到的小矩形框，其中：图5a文本行等间距分割得到的小矩形框，图5b是图5a的局部放大图。

图6是针对每个文本行的竖直笔画分割结果。

图7是倾斜形变校正前后的窗口，其中：图7a是校正前的窗口，图7b是校正后的窗口。

图8是通过局部双线性插值对扭曲校正的示意图。

图9是原图与恢复后图的对比，其中：图9a是其中一原图，图9b是图9a恢复后的图，图9c是另一原图，图9d是图9c恢复后的图。

具体实施方式

以下结合附图及具体实施例对本发明作进一步的详细描述。

本发明方法主要包括两大步骤，文本行的分割和文档图像的校正。

下面分步详细描述：

1、文本行的分割：首先通过文档图像的平均梯度值确定文本行的尺度，然后通过空白行的自相似性进行文本行跟踪，得到文本行的上、下边界，再通过文字笔画间距确定竖直笔画边界，完成对文本行的分割处理，处理完后，得到以一个以上、下边界和竖直边界划分得到的四边形，该四边形所包围的图像内容就是一个文字块处理单元。

1)文本行的尺度确定

文本行的行间距，决定了下一步“空白行追踪”时窗口的大小，在进行跟踪前需要对文字行的尺度进行计算。因此，首先说明平均梯度值与图像尺度的关系。

首先对文档图像通过高斯金字塔模型进行降采样，得到不同级高斯金字塔图像，然后计算每级金字塔图像的平均梯度值(平均梯度值MGM可敏感地反映图像对微小细节反差表达的能力，可用来评价图像的模糊程度)。通过实验发现，初始时平均梯度值随着图像的降采样逐渐增大，因为均衡的2D区域(如文本行间的空白行)收缩速度大于1D边界。然而，当图像降采样到某个尺度时平均梯度值开始逐渐减小，因为相邻的字符边界开始逐渐合并。

该平均梯度值的峰值反映了图像文本行的尺度，因此本方法中设定转换方程f(x)，将峰值对应的图像级数转换为文本行的行间距大小SL。如图1中图1a到图1d为某文档图像在不同高斯金字塔图像的截图，图1e中为不同金字塔图像的平均梯度值，从图1e可以看出：该文档图像在降采样级数为L17时的平均梯度值23.94为峰值。

2)文本行跟踪

文档图像的文本行之间存在空白行，该空白行对于文本行的追踪是十分有效的信息。因此，本方法根据空白行的自相似性来进行文本行跟踪，如图2中粗线即为文本行间的空白行部分。

文本行跟踪在平均梯度值波峰对应的降采样图像上进行。随机选取一点x₀，建立以x₀为中心、以SL为长宽的矩形窗口，并要求该窗口所包含的点都为背景点，若不符合要求，则微调x₀的坐标位置，直至窗口中都为背景点为止。在实现中，考虑到图像可能存在的随机噪声以及文本行尺度的误差，通常我们规定一个阈值t，当窗口中的时，即认为该窗口符合要求。

窗口选定后，以该窗口中心为原点x₀，搜索其以为中心邻近的窗口，其中s是搜索步长，θ_i是角度步长，m是需要搜索的角度数量。对每个邻近窗口，分别求取其与当前窗口的归一化相关系数，如式(1)：

N C = \frac{Σ_{i = 1}^{M} Σ_{j = 1}^{N} Im g A (i, j) * Im g B (i, j)}{\sqrt[2]{Σ_{i = 1}^{M} Σ_{j = 1}^{N} Im g A {(i, j)}^{2}} \sqrt[2]{Σ_{i = 1}^{M} Σ_{j = 1}^{N} Im g B {(i, j)}^{2}}} - - - (1)

与最小的归一化相关系数所对应的窗口就与当前窗口最相似，将其加入文本行序列中，并作为下一次搜索的中心窗口。同时，为了避免所搜索的窗口达到边界窗口，对搜索过程做出如下两点限定：

A当前中心窗口的待搜索窗口中至少有一个窗口中的

B当不满足A中限定时，表明该窗口不在文本行之间，则重新随机选取中心点x₀。

通过空白行跟踪确定文本行的位置，如图3所示，为空白行的跟踪结果。

得到文本行跟踪结果后，对相邻文本行跟踪线进行组合，可以得到一个框，该框中包含位于同一行的文字。以该框中的所有前景点作为一个目标点集，对该点集求取凸包，则可以得到与文本扭曲曲线全完贴合的跟踪线，如图4所示。

3)竖直笔画边界确定

以文字行跟踪后得到的每个文本框为处理单元，进行竖直笔画边界的确定。首先求取每个文本框的最小面积外接矩形，然后以l为步长，沿着该外接矩形较长边的方向进行等分切割，得到分割后的小矩形框，如图5所示的结果。对于分割后的小矩形框，依次判断每个小矩形框内是否包含前景点，若连续若干个小矩形框中都不含前景点，则判断其为竖直笔画边界，如图6所示为针对每个文本行的竖直笔画分割结果。

至此，我们就确定了文本行的行间分割以及字符(单词)间的水平分割，后续的处理将以水平与竖直分割后的单个字符(单词)为单位进行。

2、文档图像的校正

对于文档图像的形变校正，可以分为倾斜形变的校正以及扭曲校正两个主要步骤。引起文档图像形变的主要原因有：文档本身的倾斜、拍摄设备视角的倾斜以及文档的厚度不均匀。

1)倾斜形变的校正

倾斜形变的校正可以直接通过旋转来完成。对于倾斜形变的文档图像，其字符间的相对大小都保持固定比例，不会因为倾斜而改变。因此首先针对文档图像经过水平及竖直分割后的窗口为单位，进行倾斜校正。

设当前窗口的斜率为k，则该窗口中文本的倾斜角度为θ＝arctank，其中θ为倾斜角度。在得到倾斜角度后，可以通过旋转来得到对倾斜形变的校正。设原窗口中的点坐标(x_i，y_i)，其经过倾斜校正后的新坐标为(x_i′，y_i′)，则坐标之间的映射关系为：

\{\begin{matrix} {x_{i}}^{'} = x_{i} \cos θ + y_{i} \sin θ \\ {y_{i}}^{'} = y_{i} \cos θ - x_{i} \sin θ \end{matrix} - - - (2)

如图7a所示，窗口中的单词“algorithm”为倾斜的，经过倾斜校正后，得到了不倾斜的新窗口，内容与原窗口中的内容一致，如图7b所示。

2)扭曲校正——通过局部双线性插值

考虑到文本行在扭曲部分的形变会造成形状和大小的改变，因此每个窗口中的形变并不一定是相同的，若对整个窗口进行同样的恢复会造成无法预知的错误。因此对每个窗口再次进行水平分割，且认为分割后的更小的窗口为标准矩形，该标准矩形中的形变完全一致。这样就可以对这个矩形进行双线性插值，将插值后的结果恢复到新图中。

将图8左边中的窗口水平切割为8个等高的窗口，且认为每个子窗口为标准矩形。恢复后的窗口的高与原窗口相同，而宽则为原窗口宽的平均值。对于新窗口中的某个子窗口A，宽度为W，高度为H，其对应原窗口的子窗口A’的平均宽为W′，高度为H。则由双线性插值算法，可以求出窗口A中某点坐标为(x_i′，y_i′)对应的窗口A’中的坐标(x_i，y_i)，将A’中的该点的灰度值赋予A中的对应坐标点，即可得到恢复后新窗口的结果。

如图9所示，是原图与恢复后图的对比，通过两幅原图和对其进行恢复后的图，可以看出，本发明校正效果很好。

Claims

1.基于局部信息的文档图像校正方法，其特征在于：首先通过文档图像的平均梯度值确定文本行的尺度，然后通过空白行的自相似性进行文本行跟踪，得到文本行的上、下边界，再通过文字笔画间距确定竖直笔画边界，完成对文本行的分割处理，处理完后，得到一个以上、下边界和竖直边界划分的四边形，该四边形所包围的图像内容就是一个文字块处理单元；最后针对每个文字块处理单元，依次进行倾斜形变校正以及局部双线性插值校正，即完成对整幅文档图像的校正；

所述通过空白行的自相似性进行文本行跟踪的具体方法为：通过文档图像的平均梯度值确定了文本行的尺度，进而能够确定矩形追踪窗口的大小，要求该窗口内只包含背景点，若不符合要求，则微调窗口的位置，直到符合要求为止，考虑图像可能存在的随机噪声及估算的窗口大小误差，规定窗口中的背景像素数比窗口面积的比值大于等于规定阈值即符合要求；窗口选定后，以该窗口中心为原点x₀，搜索其以为中心邻近的窗口，其中s是搜索步长，θ_i是角度步长，m是需要搜索的角度数量，对每个邻近窗口，分别求取其与当前窗口的归一化相关系数，与最小的归一化相关系数所对应的窗口就与当前窗口最相似，判断若搜索到的最相似的邻近窗口不是边界窗口，则以该最相似的邻近窗口为当前窗口重复窗口搜索过程，直到其最相似的邻近窗口为边界窗口时，停止搜索，即完成了通过空白行的自相似性进行文本行跟踪的过程；

2.根据权利要求1所述的基于局部信息的文档图像校正方法，其特征在于：所述的通过文档图像的平均梯度值确定文本行的尺度的具体方法为：首先对文档图像通过高斯金字塔模型进行降采样，得到不同级高斯金字塔图像，然后计算每级高斯金字塔图像的平均梯度值，该平均梯度值的峰值反映了图像文本行的尺度。

3.根据权利要求1所述的基于局部信息的文档图像校正方法，其特征在于：所述确定竖直笔画边界的具体方法为：对相邻文本行跟踪线进行组合，得到一个框，该框中包含位于同一行的文字即文本框，以文本行跟踪后得到的每个文本框为处理单元，首先求取每个文本框的最小面积外接矩形，然后以l为步长，沿着该外接矩形较长边的方向进行等分切割，得到分割后的小矩形框，依次判断每个小矩形框内是否包含前景点，若连续多个小矩形框中都不含前景点，则判断其为竖直笔画边界。