CN101789122A

CN101789122A - 用于校正畸变文档图像的方法和系统

Info

Publication number: CN101789122A
Application number: CN200910009923A
Authority: CN
Inventors: 胥立丰; 温东超
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-01-22
Filing date: 2009-01-22
Publication date: 2010-07-28
Anticipated expiration: 2029-01-22
Also published as: JP4847592B2; JP2010171976A; CN101789122B

Abstract

本发明提供一种用于校正畸变文档图像中的几何畸变的方法和系统。所述方法包括：垂直消失点检测步骤，检测所述畸变文档图像的垂直消失点；图像分割步骤，通过使用从所检测到的垂直消失点起源的垂直线，将所述畸变文档图像的整个区域分割成多个图像条带；水平消失点检测步骤，检测每个所述图像条带的水平消失点；畸变模型生成步骤，通过使用所述垂直消失点和所述图像条带的所述水平消失点建立畸变模型，所述畸变模型描述畸变文档图像和校正后的文档图像之间的映射关系；以及校正步骤，基于所述模型生成校正后的文档图像。根据这种畸变模型，可以容易且高效地校正几何畸变。

Description

用于校正畸变文档图像的方法和系统

技术领域

本发明涉及用于校正畸变文档图像的方法和系统，尤其涉及用于校正由数字照相机从书本或装订文档拍摄的畸变文档图像的方法和系统。

背景技术

数字照相机已变得越来越普及，其不仅在消费者之中作为消费品变得普及，而且还在诸如商业和技术之类的领域中作为方便的工具而变得普及。对于OCR(光学字符识别)界来说，数字照相机作为文档成像装置提供了对扫描仪的一种可能替换方案。然而，当前的OCR技术主要是为扁平文档的数字扫描图像设计的，而不能处理一般的照相机拍摄的文档图像。

扫描仪摄取的图像大体上是扁平的，并且具有从正前方的基本上为零的视角，因此几乎不存在由于透视或弯曲问题引起的几何畸变。然而，当通过数字照相机拍摄书本或其他类型的装订文档的图像时，多少会有非零视角，并且取决于所述书本或装订文档的厚度，所述书本或装订文档将具有一定的弯曲。结果，由数字照相机拍摄的文档图像将遭受由透视和弯曲这两个问题造成的几何畸变。图8示出了由数字照相机拍摄的文档图像的示例，所述文档图像具有明显的由透视和弯曲这两个问题造成的畸变。如果直接使用这样的畸变文档图像用于OCR操作，则识别准确率将较低。

已提出了多种方法用于校正畸变文档图像中的畸变。一类方法利用特殊的三维扫描设备来校正畸变。根据题为“Former Books DigitalProcessing：Image Warping”，A.Doncescu，A.Bouju，V.Quillet，Proc.Workshop of Document Image Analysis，5-9，1997的论文中的方法，使用激光投影仪将二维光网投影在文档的三维表面上，然后可构建一个网图(mesh)来表示该三维文档表面，并且将该网图直接扁平化或变换为可展网图。

作为替换方案，可从文档图像估计出该表面的三维形状。存在估计所述三维形状的参数方法和绕过形状估计过程的非参数方法。

在题为“Global and Local Document Degradation Models”，T.Kanungo，R.Haralick，I.Philips，in Proc.2nd InternationalConference on Document Analysis and Recognition，1993的论文中，介绍了一种利用圆柱体和平面的组合来对书本的三维表面模型进行仿真的方法，但是如何估计与此模型有关的参数以及如何将此模型用于校正畸变的问题仍未解决。由于必须利用特殊的设备，该方法还是代价高昂的。此外，此方法只能被应用于扫描仪扫描的图像。

根据在题为“Document Restoration Using 3D Shape：a GeneralDeskewing Algorithm for Arbitrarily Warped Documents”，M.S.Brown，W.B.Seales，Proc.International Conference on ComputerVision，July 2001的论文中介绍的方法，通过某种立体视觉方法获得文档图像的每个点在文档中的深度，以便创建深度图像，然后根据该深度图像将该文档图像矫正为平面。虽然似乎可以矫正任何类型的图像畸变，但是如何将深度图像定义的文档的粗糙带噪表面上的点映射到平面上的点仍是个问题。

在题为“Restoration of Images Scanned from Thick BoundDocuments”，Z.Zhang，C.L.Tan，in Proc.6th InternationalConference on Document Analysis and Recognition，2001的论文中，借助字符分段过程来矫正装订书本的扫描图像。阴影中的(表面弯卷处的)字符被分段，对这些字符的朝向和原始位置进行估计，然后相应地调整字符。

在题为“Rectifying the Bound Document Image Captured by theCamera：A Model Based Approach”，Huaigu Cao，Xiaoqing Ding，Changsong Liu，Proceedings of the Seventh International Conferenceon Document Analysis and Recognition(ICDAR 2003)的论文中还提出了一种用于矫正照相机拍摄的装订文档的图像的基于模型的方法。由一般的圆柱体表面表示文档的表面。显然，无法处理诸如折页之类的其他弯曲类型。

一般来说，如果文档图像仅具有由透视问题引起的畸变，则可以使用页边缘的方向信息来近似字符方向。然而，当不仅由透视问题而且还由弯曲问题引起畸变时，一页中的字符具有不同方向的不同畸变，因此上述近似方法将失效。

因此，需要这样一种技术，其能够处理图像中的由总是伴随照相机拍摄的文档图像的弯曲和透视问题引起的畸变，并且实施起来有效且容易。

发明内容

考虑到在前述现有技术中存在的技术问题，提供了一种用于校正畸变文档图像的新方法。本发明基于这样的关键思想：常常存在于自然打开的书本或自然打开的纸捆中的弯卷文档页可以通过这样一组平面条带来近似，所述平面条带垂直于文本行的方向或平行于装订方向而延伸，并且在文本行的方向上被排列。也就是说，这些图像条带是通过利用至少一条垂直线分割畸变文档图像而获得的。在每一个所述条带中，弯曲可以被忽略，而透视畸变成为主导畸变。因此，复杂的非线性问题可以被转化为多个较简单的局部线性问题。本发明还基于两个重要的文本特征，即文本行的局部朝向和垂直字符笔划，它们被用于识别局部线性畸变。

本发明不需要任何辅助装置，并且可以应对各种各样的畸变类型，诸如由装订、折叠和透视引起的那些畸变类型。应该注意，虽然本发明主要针对校正数字照相机拍摄的文档图像的畸变，但是其也可以应用于校正从其他装置输入的文档图像，诸如由平台扫描仪扫描的厚书本的文档图像。

根据本发明的一个方面，提供一种校正原始文档的畸变文档图像中的几何畸变的方法，包括：

垂直消失点检测步骤，检测所述畸变文档图像的垂直消失点，所述垂直消失点是在原始文档中垂直于文本行的垂直方向上的消失点；

图像分割步骤，通过使用从所检测到的垂直消失点起源的垂直线，将所述畸变文档图像的整个区域分割成多个图像条带；

水平消失点检测步骤，检测每个所述图像条带的水平消失点，所述水平消失点是在原始文档中垂直于所述垂直方向的水平方向上的消失点；

畸变模型生成步骤，通过使用所述垂直消失点和所述图像条带的所述水平消失点建立畸变模型，所述畸变模型描述畸变文档图像和校正后的文档图像之间的映射关系；以及

校正步骤，基于所述模型生成校正后的文档图像。

根据本发明的另一个方面，提供一种校正原始文档的畸变文档图像中的几何畸变的系统，包括：

垂直消失点检测装置，用于检测所述畸变文档图像的垂直消失点，所述垂直消失点是在原始文档中垂直于文本行的垂直方向上的消失点；

图像分割装置，用于通过使用从所检测到的垂直消失点起源的垂直线，将所述畸变文档图像的整个区域分割成多个图像条带；

水平消失点检测装置，用于检测每个所述图像条带的水平消失点，所述水平消失点是在原始文档中垂直于所述垂直方向的水平方向上的消失点；

畸变模型生成装置，用于通过使用所述垂直消失点和所述图像条带的所述水平消失点建立畸变模型，所述畸变模型描述畸变文档图像和校正后的文档图像之间的映射关系；以及

校正装置，用于基于所述模型生成校正后的文档图像。

从以下参照附图的描述，本发明的其他特性特征和优点将变得清晰。

附图说明

并入到说明书中并且构成说明书一部分的附图示出了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1是示出用于实现根据本发明的用于校正畸变文档图像的系统的计算装置的布置的框图。

图2是示出根据本发明的实施例的包含各个模块装置的用于校正畸变文档图像的系统的总体配置的框图。

图3是示出实现根据本发明的校正畸变文档图像的方法的总体过程的流程图。

图4是示出根据本发明的实施例的检测垂直消失点的示例性过程的流程图。

图5示出线段与连接交点和所述线段中点的直线所限定的交叉角的图示，用于说明如何计算消失点。

图6是示出根据本发明的用于定位文本行曲线的示例性过程的流程图。

图7是示出如何在网图模型的一个网格中将畸变文档图像映射到校正后的文档图像的示意图。

图8示出由照相机从书本的一页拍摄的典型文档图像的示例。

图9示出从图8所示的文档图像获得的示例性边缘图像。

图10(a)示出通过对图9所示的边缘图像进行旋转、压缩、以及游程长度平滑算法而获得的示例性边缘图像；图10(b)示出从图10(a)所示的图像提取的中等高度点所构成的示例性图像。

图11示出由垂直笔划构成的示例性边缘图像，所述垂直笔划是通过从图9所示的边缘图像中除去水平笔划的边缘而获得的。

图12示出通过从图11所示的边缘图像找到提取的垂直笔划的连通单元而获得的示例性图像。

图13示出带有通过根据本发明的实施例的方法构建的网图的图9的文档图像。

图14示出借助根据本发明的畸变校正方法得到的示例性的校正后的文档图像。

图15示出用于说明如何构建网图的图示。

具体实施方式

以下将参照附图详细描述本发明的实施例。

在本说明书和权利要求书中，尤其是当用于畸变文档图像中时，术语“水平”或“在x方向上”意味着基本上水平，而术语“垂直”或“在y方向上”意味着基本上垂直。特别地，在畸变文档图像中所用的术语“水平”是指在相应的校正后的文档图像中或原始文档中与文本行平行的方向。例如，术语“水平线”是指校正后的平面图像(或者原始文档)中的对应于这条线的线平行于校正后的平面图像(或者原始文档)中的文本行。类似地，在畸变文档图像中所用的术语“垂直”是指在相应的校正后的文档图像中或原始文档中与文本行垂直。例如，术语“垂直笔划”是指校正后的平面图像(或者原始文档)中的该笔划垂直于文本行。

在本说明书中，术语“左”和“右”表示当以人们在阅读书本或文档时通常所用的普通方式来观看页面时的左手侧和右手侧。

在本说明书中，除非另外指出，否则所有尺寸(诸如长度或宽度)都以“像素”为单位。例如，L＜5意味着L小于5个像素。

图1是示出用于实施根据本发明的用于校正畸变文档图像的系统的计算装置的布置的框图。为了简单起见，该系统被示出为构建在单个计算装置中。然而，无论该系统构建在单个计算装置中还是构建在作为网络系统的多个计算装置中，该系统都是有效的。

如图1所示，计算装置100用于实施校正畸变文档图像的处理。计算装置100可以包含CPU 101、芯片组102、RAM 103、存储控制器104、显示控制器105、硬盘驱动器106、CD-ROM驱动器107、以及显示器108。计算装置100还可以包括连接在CPU 101和芯片组102之间的信号线111、连接在芯片组102和RAM 103之间的信号线112、连接在芯片组102和各种外围装置之间的外围装置总线113、连接在存储控制器104和硬盘驱动器106之间的信号线114、连接在存储控制器104和CD-ROM驱动器107之间的信号线115、以及连接在显示控制器105和显示器108之间的信号线116。

客户端120可以直接或经由网络130连接到计算装置100。客户端120可以将校正任务发送给计算装置100，并且计算装置100可以将校正结果返回给客户端120。

图2是示出由各个模块装置构成的用于校正畸变文档图像的系统的总体配置的框图。

如图2所示，畸变校正系统200可以包括：垂直消失点检测装置201，用于检测所述畸变文档图像的垂直消失点；图像分割装置203，用于通过使用从所检测到的垂直消失点起源的垂直线，将所述畸变文档图像的整个区域分割成多个图像条带；水平消失点检测装置205，用于检测每个所述图像条带的水平消失点；畸变模型生成装置207，用于通过使用所述垂直消失点和所述图像条带的所述水平消失点建立畸变模型，所述畸变模型描述畸变文档图像和校正后的文档图像之间的映射关系；以及校正装置209，用于基于所述模型生成校正后的文档图像。垂直消失点检测装置201可以优选包括：垂直笔划提取装置2011，用于从所述畸变文档图像中提取字符的多个垂直笔划；垂直线段拟合装置2013，用于通过多个垂直线段来拟合所述垂直笔划；垂直最优会聚点计算装置2015，用于通过搜索所述垂直线段的最优会聚点，从垂直线段计算垂直消失点。所述垂直最优会聚点计算装置2015可以优选包括：交点计算装置2015-1，用于计算所述垂直线段中的任何两条垂直线段之间的交点；以及最优点选择装置2015-2，用于在所述交点之中选择使交叉角的正弦平方和最小化的交点作为最优会聚点。所述水平消失点检测装置205可以优选包括：文本行曲线定位装置2051，用于从所述畸变文档图像中沿文本行的方向定位文本行曲线；片段提取装置2052，用于提取在图像条带中定位的文本行曲线的片段；水平线段拟合装置2053，用于通过水平线段拟合所述文本行曲线的片段；以及水平最优会聚点计算装置2054，用于通过搜索水平线段的最优会聚点，从所述水平线段计算水平消失点。所述水平最优会聚点计算装置2054可以优选包括：交点计算装置2054-1，用于计算所述水平线段中的任何两条水平线段之间的交点；以及最优点选择装置2054-2，用于在所述交点之中选择使交叉角的正弦平方和最小化的交点作为最优会聚点。所述文本行曲线定位装置2051可以优选包括：中等高度点提取装置2051-1，用于提取畸变文档图像中的字符的像素的中等高度点；以及文本行曲线定位装置2051-2，用于通过使用所述中等高度点，定位穿过所述文本行中的字符的中等高度的文本行曲线。

上述装置是用于实施以下所要描述的过程的示例性优选模块。用于实施各种步骤的模块并没有在以上被详尽地描述。然而，当具有执行某种过程的步骤时，即有用于实施同种过程的相应的功能模块或装置。

图3是示出实施根据本发明的校正畸变文档图像的方法的过程的流程图。图8示出通过照相机从书本的一页拍摄的典型文档图像的示例。如图8所示，存在由弯曲和透视问题两者引起的明显畸变。

在步骤S310中，利用垂直字符笔划的朝向来检测垂直消失点。消失点的含义将在以下说明。平面中的所有彼此平行的直线无论怎样延伸，它们在理论上都永不彼此相交。另一方面，当平面被放置在具有非零视角的三维空间中时，本来彼此平行的这些直线看上去将不再平行，并且所有这些直线的延长线理论上将相交在一点。这些在平面中彼此平行的线在非零视角的三维空间中彼此相交的点被称作消失点。因此，平面中的垂直线在非零视角的三维空间中彼此相交的点被称作垂直消失点。相似地，平面中的水平线在非零视角的三维空间中彼此相交的点被称作水平消失点。术语“水平”和“垂直”已如上定义。在多数情况下，装订书本的自然弯曲将在平行于装订线或者垂直于文本行的方向上延伸。因此，对于一个拍摄的图像仅存在一个垂直消失点。有许多用于检测消失点的已知技术，例如在Barnard S.T.的″Interpreting Perspective Images″，Artificial Intelligen ce，vol.21，pp.435-462，1983中公开的基于高斯球面的方法，以及在Virginio Cantoni，Luca Lombardi，Marco Porta，Nicolas Sicard的“Vanishing PointDetection：Representation Analysis and New Approaches”，Proceedings of the 11th International Conference on Image Analysis&Processing中公开的基于极坐标空间中的Hough变换积累的方法。

在步骤S310中确定了垂直消失点之后，在步骤S320中，可以导出一组垂直线，这些垂直线都起源于该垂直消失点，并且穿过图像区域，以将整个图像区域分割成沿着水平方向排列的多个平面条带。

然后在步骤S330中，检测这些图像条带的水平消失点。

在步骤S340中，根据图像条带并且根据水平消失点和垂直消失点，构建描述畸变文档图像中的整体畸变的模型。在确定了垂直消失点和水平消失点之后，透视特性和弯曲特性都可以被确定。因此，诸如文本行、字符笔划以及页边缘等的各种文档特征都可以被用于构建这种模型。

最后在步骤S350中，通过利用如上所构建的模型生成校正后的文档图像。

以下是根据本发明的用于校正畸变文档图像中的畸变的示例性实施例。

首先在步骤S310中，利用垂直字符笔划的朝向以检测垂直消失点。以下将参照图4描述用于执行步骤S310的详细步骤。

图4是示出步骤S310中的检测垂直消失点的过程的流程图。

在步骤S410中，检测图像的前景对象的边缘。各种常用的边缘检测技术，诸如Sobel算子、Canny算子等，可以在此被应用以检测边缘。输出是边缘图像和边缘方向图像。边缘方向图像具有关于每个检测出的边缘像素的梯度角的信息。像素的梯度角是指示该像素的灰度值的改变方向的角。也就是说，像素的梯度角示出从相邻像素到该像素的灰度改变方向。图9示出图8所示的文档图像的示例性边缘图像。可以看出，每个字符的边缘被提取出。

在步骤S420，通过以下的方法处理边缘图像以便挑选出垂直字符笔划。正在被数字照相机拍摄的文档可能未被合适地放置，因此很可能引入某种歪斜。为了检测歪斜角，在此可以使用对二值图像检测歪斜角的各种现有方法，诸如例如在Yue Lu，Chew Lim Tan所著的题为“A Nearest-Neighbour Chain Based Approach to SkewEstimation in Document Images”，Pattern Recognition letters 24(2003)2315-2323，中提出的基于最近邻的方法，或者基于投影的方法。不要求所检测的歪斜角必需是非常准确的，因为所需的仅是从歪斜角获得粗略的文本行方向。

然后，通过将像素的梯度方向与所述歪斜角进行比较，不属于垂直笔划的边缘的像素被除去。令θ_i表示位于边缘的(x_i，y_i)上的像素的梯度角，θ表示文档的歪斜角。如果|θ_i-θ|大于给定的阈值，则该像素应该被除去。应指出，(x_i，y_i)是对畸变文档图像建立的笛卡尔坐标系中的坐标。图11示出通过从图9所示的边缘图像中除去水平笔划的边缘中的像素而获得的示例性边缘图像。

在步骤S430中，通过在步骤S420中获得的边缘图像上搜索连通单元来找到垂直笔划候选。连通单元是指这样一组像素，所述一组像素中的每一个都与该组像素中的至少另一个像素连通。如果一个像素在另一个像素的某个邻域内(例如，距所述另一个像素水平3个像素且垂直4个像素内的邻域)，则这两个像素可以被视作“连通”的。本领域中已知多种算法用于在像素中搜索连通单元。例如，搜索策略例如可以是，首先从图像底部选择起始点，然后垂直向上地搜索黑色像素。每次从一个黑色像素开始，在上述的邻域内搜索下一个前景像素。请注意，邻域的大小可以由本领域技术人员取决于实际要求来任意选择。为了计算消失点，优选地只考虑长度L在某个所需范围内(例如12＜L＜150)的主导连通单元。也就是说，长度不在此范围内的连通单元将优选地被除去或忽略。请注意，上述范围的数值仅是示例性的，本领域技术人员可以根据设计要求或原始文档的实际状况来任意选择此范围。图12示出了通过从图11所示的边缘图像找到提取的垂直笔划的连通单元而获得的示例性图像。

对于每个找到的连通单元，将拟合一条直线，该直线的参数为角度θ和距原点的距离ρ：

ρ＝xcosθ+ysinθ (1)

其中，x和y是该直线上的一点在笛卡尔坐标系中的x坐标和y坐标，θ和ρ是在拟合过程中要确定的两个参数。

每个获得的连通单元是具有相似梯度朝向的一组边缘像素(x_i，y_i)，(x_i，y_i)是连通单元中的第i个像素在笛卡尔坐标系中的坐标，i＝1，2，3...。可直接从与边缘像素相关联的矩阵D的特征值λ₁和λ₂以及特征向量v₁和v₂确定直线参数。矩阵D被定义如下。

D = [\begin{matrix} Σ_{i} {\tilde{x}}_{i}^{2} & Σ_{i} {\tilde{x}}_{i} {\tilde{y}}_{i} \\ Σ_{i} {\tilde{x}}_{i} {\tilde{y}}_{i} & Σ_{i} {\tilde{y}}_{i}^{2} \end{matrix}] - - - (2)

其中

和

是特定连通单元的平均校正像素坐标，并且

n是该连通单元中的像素的数目。用于求矩阵的特征值和特征向量的过程在本领域内公知，因此在此省略用于获得矩阵D的特征值λ₁和λ₂以及特征向量v₁和v₂的详细过程。在理想直线的情况下，特征值之一应为零。直线拟合的质量是由矩阵D的两个特征值的比值即

来表征的。直线参数是从特征向量v₁和v₂确定的，其中v₁是与最大的特征值相关联的特征向量。直线参数被计算如下：

θ = \arctan (\frac{v_{1} (2)}{v_{1} (1)}) - - - (3)

ρ = \overset{&OverBar;}{x} \cos θ + \overset{&OverBar;}{y} \sin θ - - - (4)

其中，

是线段中点，其中

和

已如上定义，v₁(1)是v₁的第一维，v₁(2)是v₁的第二维。根据上述公式，获得该直线的参数θ和ρ，并且从而获得拟合每一个垂直笔划的连通单元的每一条垂直线段。

在步骤S440中，通过搜索这些垂直线段的最优会聚点来获得垂直消失点。存在各种现有技术可以用于估计多条直线的最优会聚点。以下是用于估计这些垂直线段的最优会聚点的示例性过程。首先，计算所述线段中的任何两条线段之间的交点，作为垂直消失点候选组

j＝1，2，3...。然后，利用统计方法从该组交点中选择最优会聚点作为所得的垂直消失点。垂直消失点例如可以是交点

中的使以下函数F(j)最小化的点：

F (j) = Σ_{i} {(\sin β_{i}^{j})}^{2} - - - (5)

\sin β_{i}^{j} = \frac{d_{i}^{j}}{r_{i}^{j}} - - - (6)

d_{i}^{j} = | ρ_{i} - x_{0}^{j} \cos θ_{i} - y_{0}^{j} \sin θ_{i} | - - - (7)

r_{i}^{j} = \sqrt{{(x_{0}^{j} - {\overset{&OverBar;}{x}}_{i})}^{2} + {(y_{0}^{j} - {\overset{&OverBar;}{y}}_{i})}^{2}} - - - (8)

其中，

是第i条线段的中点的坐标，

是第j个候选交点

到第i条线段的距离，ρ_i是第i条线段到原点的距离，θ_i是第i条线段与x轴限定的角，

是第j个候选交点与第i条线段中点的距离，

是第i条线段与连接第j个候选交点

和第i条线段中点

的直线限定的角。请参照图5获得直观的表示。请注意，对步骤S440的上述描述仅是示例性的，而不意图限制本发明的范围。如前文所述的，已知多种技术用于获得多条直线的消失点，并且用于获得消失点的方法并不限于上述的方法。

在步骤S310中确定了垂直消失点之后(例如通过利用上述的子步骤S410-S440)，在步骤S320中，可以导出一组垂直线，这些垂直线均从垂直消失点起源，并且穿过图像区域，将整个图像区域分割成沿水平方向排列的多个平面条带。该分割例如基本上基于以下的示例性准则中的一条或多条：

(1)每个条带中单个文本行曲线的长度可以在指定的范围[L1，L2]内，其中L1和L2是例如根据文档图像中的平均字符大小来确定的值。

(2)如果要处理的图像具有双页，则订书钉或装订线可以是这些垂直线之一。

(3)如果图像包含不止一列，则在相邻的列之间可以有分离线作为一条所述垂直线。

(4)在页面中间部分，条带可以较窄；而在页面的左侧和右侧，条带可以较宽。

(5)每个条带应该能够被视作基本上平坦。也就是说，一个条带仅具有一个水平消失点。对于平坦的标准可以取决于实际要求和期望的OCR准确率。

上述的准则确保所分割的条带对于计算准确的水平消失点是足够宽的，同时确保条带足够平坦。

应该注意，上述准则仅是示例性的，而并不意图限制本发明的保护范围。本领域技术人员可以采用上述准则中的一条或多条，或者可以设计出其他准则用于分割图像区域。关于如何分割图像区域的准则取决于实际要求和期望的OCR准确率。

在步骤S330中，检测每个图像条带的水平消失点。因为书本的纸页一般沿着水平方向波动，因此每个图像条带的水平消失点将会不同。也就是说，每个图像条带具有其自己的水平消失点。

以下是用于获得每个图像条带的水平消失点的示例性过程。

首先，从步骤S410中提取出的边缘图像中检测出穿过每个文本行的中等高度的曲线。具体地，提取字符的中等高度点，然后通过使用连通单元分析从中等高度点中定位文本行曲线。文本行曲线对于指示沿水平方向的畸变信息就足够精确了。

图6示出用于定位文本行曲线的详细流程图。请注意，图6的过程仅是示例性的优选示例。本领域技术人员知晓用于从边缘图像定位各种文本行曲线的各种方法。

在步骤S610中，在步骤S410中提取的作为边缘图像的二值图像例如通过仿射变换操作进行变换，并且生成新的二值图像I1。仿射变换操作相当于这样的过程：利用前述的歪斜角将所述二值图像旋转为基本上正立的视图，然后通过“或”的方法对旋转后的图像进行压缩，水平压缩比N大于垂直压缩比M。“或”的方法意味着，对于与压缩后的图像的一个像素对应的未压缩的图像的N×M的图像块，如果在该图像块中有至少一个黑色像素，则压缩后的图像上的相应的像素将被设定为黑色。旋转的目的是使文本行充分水平，而压缩的主要目的是对于每个文本行抹去字符的空白区域而获得“实心”文本块。在“实心”文本块上搜索字符的中等高度点容易得多。

为了获得良好的“实心”效果，同时不将相邻文本行混淆，垂直压缩比M可以被指定为满足以下条件的最小正整数：该条件是，原始图像的高度除以M不大于给定的值(例如512)。也可以根据要检测的字符的平均高度来分配垂直压缩比M。例如，如果要检测的字符的平均高度为H，则M可以被分配为H/8。水平压缩比N可以被指定为3×M。

在步骤S620中，为了获得文本行的更好的“实心”效果，二值图像I1进一步通过在水平方向上然后在垂直方向上执行游程长度平滑算法(RLSA)来进行平滑。游程是指一片连续的N个像素，其间不具有间隔(白色像素)。游程长度平滑算法是由指示一个长度(像素数目)的参数来表征的，如果两个像素之间的距离小于该长度，则这两个像素之间的像素都将被描绘为“黑色”，换言之，根据游程长度平滑算法，这两个像素将被认为是“连续的”。所述的参数可被选作2和4之间的值。游程长度平滑算法的效果是使距离短的像素连通在一起以便识别为“基本上”连续的直线或曲线。图10(a)示出通过对图9中的边缘图像如上所述进行旋转、压缩和游程长度平滑算法而获得的示例性边缘图像。

然后，在步骤S630中，沿着垂直方向在二值图像I1上寻找黑色游程。通过除去太短或太长的黑色游程而丢弃不属于字符的黑色游程。H1和H2例如分别被指定作为仿射变换后的文档中最小可能的文本高度和最大可能的文本高度。如果黑色游程的长度小于H1或者大于H2，则该黑色游程被丢弃。在丢弃步骤之后，多数保留的黑色游程属于字符。

在步骤S640中，提取保留的黑色游程的中等高度点作为字符的中等高度点。然后，生成与二值图像I1同样尺寸的二值图像I2。在二值图像I2中，在与中等高度点对应的位置处的像素被设为黑色。图10(b)示出由从图10(a)的图像提取的中等高度点构成的示例性图像。

在步骤S650中，在获得包含所述中等高度点的二值图像I2之后，可以通过利用连通单元搜索方法来找到曲线。与在步骤S430中描述的相似，搜索策略例如可以是，首先从图像左侧选择起始点，然后水平向右侧搜索黑色像素。在本方法的实施中，每次从一个黑色像素开始，在例如水平4个像素和垂直3个像素内搜索下一个前景像素。

由于字符笔划的波动，如此获得的曲线常常是不平滑的，如图10(b)所示。因此，在步骤S660中，优选地使用游程长度信息来平滑这些曲线。例如，计算每条曲线的平均游程长度H，然后其相应游程长度超过[a×H，b×H]的范围的点被除去，其中a＜1且b＞1。也可以在步骤S660中使用其他平滑方法，只要可以平滑这些曲线即可。如果对计算复杂度有限制，或者对准确率的要求许可，则也可以省略步骤S660。

在步骤S670中，文本行曲线的坐标被变换到原始边缘图像上。此变换操作是前述的仿射变换操作的逆操作。

然后，对于每个图像条带，通过如下步骤计算其水平消失点：

a)提取位于图像条带中的文本行曲线的片段；

b)用水平线段拟合每一条所述文本行曲线的片段；

c)通过选择水平线段的最优会聚点，从水平线段计算水平消失点。

在计算水平消失点时选择最优会聚点的过程例如可以通过与步骤S440中计算垂直消失点时相同的过程来执行。然而，在计算水平消失点时选择最优会聚点的过程也可以通过与步骤S440中计算垂直消失点时的过程不同的过程来执行，只要可以计算出消失点即可。

现在再参照图3。

在步骤S340中，从图像条带以及相应的水平消失点和垂直消失点，构建描述畸变文档图像的模型，用于描述畸变文档图像和校正后的文档图像之间的映射。在本示例中，该模型是网图。图15举例示出了如何构建该网图的方法。如图15所示，以实线曲线描绘了文档图像Pa-Pb-Pc-Pd，并且该文档图像Pa-Pb-Pc-Pd被分割成三个条带，其从左侧到右侧依次为STRIPE 1、STRIPE 2和STRIPE 3。根据上述的方法找到了一个垂直消失点VVP和三个水平消失点HVP1、HVP2和HVP3。水平消失点HVP1、HVP2和HVP3分别是STRIPE1、STRIPE 2和STRIPE 3的水平消失点。因此，有两条垂直线Pe-Pf和Pg-Ph，其均起源于垂直消失点VVP，并将该图像分割成这三个条带。现在考虑网图中的水平曲线。在图15示出的此说明性示例中使用了两条水平曲线。然而，水平曲线的数量可以取决于期望的OCR准确率以及诸如处理速度和计算能力之类的要求和条件来确定。此图像的左边缘上的例如两个点被选择作为点P011和点P012。优选选择这些点使得它们均等地分割左边缘。然而，这并不是严格的要求。然后，从水平消失点HVP1开始向着点P011画一条直线，该直线延伸而与直线Pe-Pf具有交点P121，并且从水平消失点HVP1开始向着点P012画一条直线，该直线延伸而与直线Pe-Pf具有交点P122。然后，从水平消失点HVP2开始向着点P121画一条直线，该直线与直线Pg-Ph具有交点P231，并且从水平消失点HVP2开始向着点P122画一条直线，该直线与直线Pg-Ph具有交点P232。最后，从水平消失点HVP3开始向着点P231画一条直线，该直线与图像的右边缘具有交点P301，并且从水平消失点HVP3开始向着点P232画一条直线，该直线与图像的右边缘具有交点P302。结果，获得八个点P011、P012、P121、P122、P231、P232、P301和P302。可以通过利用两组点来拟合两条水平曲线，其中一组为点P011、P121、P231和P301，另一组为点P012、P122、P232和P302。也就是说，总体上，水平曲线是通过计算每个水平消失点与垂直线之间的交点来确定的。请注意，虽然在以上说明性示例中，该方法从左侧的水平消失点开始进行，但是任何一个水平消失点都可以被当作开始的水平消失点，只要在某个条带内的水平曲线的方向是通过该条带的水平消失点来确定的即可。

图13示出带有通过上述方法构造的网图的图9的文档图像。如图13所示，整个图像区域被分割成8个平面条带，这8个平面条带是通过从垂直消失点起源的7条垂直线获得的。一组9条水平曲线是通过如上所述计算水平消失点和垂直线之间的交点而确定的。

在建立了网图之后，通过参照该网图生成畸变文档图像上的点和校正后的文档图像上的点之间的映射；然后，通过参照该映射获得校正后的文档图像。

畸变文档图像上的点和校正后的文档图像上的点之间的映射是基于边界内插来确定的。在题为“Identification of Text-Only Areas inMixed-type Documents”，C.Strouthopoulos，N.Papamarkos，C.Chamzas，Engng Applic.Artif.Intell.，Elsevier Science Ltd，GreatBritain，Vol.10，No.4，pp.387-401，1997的论文中描述了一种边界内插方法。

在一个示例中，利用三次自然样条来拟合连接这些交点、并且包围网图中的一个网格的曲线，作为边界曲线c_i(i＝1，2，3，4)，如图7所示。图7的左下部分示出了网图中的一个网格，该网格如上所述由四条边界曲线c_i(i＝1，2，3，4)包围。这些边界曲线是通过垂直消失点和水平消失点如上所述获得的上述的垂直线和水平曲线的一部分。图7的右下部分示出了在与畸变文档图像的一个网格对应的校正后的文档图像的一个网格中在参数空间u和v上定义的校正后的文档图像，其中u∈[0，1]并且v∈[0，1]。水平边界曲线c₁和c₃可以表达为以c_ix(u)作为x坐标，且以c_iy(u)作为y坐标(i＝1，3)，并且垂直边界线c₂和c₄可以表达为以c_ix(v)作为x坐标，且以c_iy(v)作为y坐标(i＝2，4)。也就是说，对于校正后的文档图像的每一个u，畸变文档图像中的水平边界曲线c₁和c₃上的每个点可以被表达为(c_ix(u)，c_iy(u))，(i＝1，3)，并且对于校正后的文档图像的每一个v，畸变文档图像中的垂直边界线c₂和c₄上的每个点可以被表达为(c_ix(v)，c_iy(v))，(i＝2，4)。

每条边界曲线c_i(i＝1，2，3，4)映射到u-v空间中的直线图像的相应的一条边。例如，校正后的文档图像中的u轴对应于畸变文档图像中的曲线c₁，并且校正后的文档图像中的v轴对应于畸变文档图像中的曲线c₄。在这种情况下，例如利用双线性混成昆氏曲面(bi-linearlyblended Coons patch)来提供用来描述如何将校正后的文档图像中的任意点(u，v)映射到由畸变文档图像中的边界曲线c_i(i＝1，2，3，4)包围的畸变文档图像中的点(c_x(u，v)，c_y(u，v))的2维函数，如下：

c_{x} (u, v) = [1 - u, u] [\begin{matrix} c_{4 x} (v) \\ c_{2 x} (v) \end{matrix}]

+ [c_{1 x} (u), c_{3 x} (u)] [\begin{matrix} 1 - v \\ v \end{matrix}] - - - (9)

- [1 - u, u] [\begin{matrix} c_{1 x} (0) & c_{2 x} (0) \\ c_{3 x} (1) & c_{4 x} (1) \end{matrix}] [\begin{matrix} 1 - v \\ v \end{matrix}]

c_{y} (u, v) = [1 - u, u] [\begin{matrix} c_{4 y} (v) \\ c_{2 y} (v) \end{matrix}]

+ [c_{1 y} (u), c_{3 y} (u)] [\begin{matrix} 1 - v \\ v \end{matrix}] - - - (10)

- [1 - u, u] [\begin{matrix} c_{1 y} (0) & c_{2 y} (0) \\ c_{3 y} (1) & c_{4 y} (1) \end{matrix}] [\begin{matrix} 1 - v \\ v \end{matrix}]

这些方程式由两个相对的边界曲线的线性内插(式中的第一和第二项)、以及基于边界的交点的校正函数(式中的第三项)构成。这些方程式的更多细节可以从题为“Correcting document imagewarping based on regression of curved text lines”，Zheng Zhang，Chew Lim Tan，Proceedings of the Seventh International Conferenceon Document Analysis and Recognition(ICDAR’03)的论文中找到。

为了获取网图中的任何网格中的映射关系，包围该网格的两条相关水平曲线可以被选择为c₁和c₃，并且包围该网格的两条相关垂直线可以被选择为c₂和c₄。

根据上述过程对网图中的每个网格中的每个点建立映射，从而建立畸变文档图像和校正后的文档图像之间的像素映射。

注意，虽然使用了三次自然样条方法来拟合用于连接这些交点的曲线，但是也可以使用各种其他曲线诸如圆锥曲线，并且可以使用相应的内插方法用于该映射。并且，也可以使用通过直线简单地连接这些交点的方法。在这种情况下，网图中的每个网格可以由四边形来近似，并且此四边形内部的每个点可以通过使用公知的线性技术来进行内插。

最后，在步骤S350中，通过映射获得校正后的文档图像。具体地，当获得与畸变文档图像中的像素相对应的映射后的像素时，映射后的像素被描绘以与畸变文档图像中的相应像素相同的颜色。图14示出借助根据本发明的畸变校正方法从图8所示的畸变文档图像校正的示例性校正后的文档图像。可以看出，校正后的文档图像既没有透视问题引起的畸变也没有弯曲问题引起的畸变，并且看上去非常平坦。在校正之后，利用校正后的文档图像的OCR识别准确率与利用畸变文档图像的相比可以显著改善。

可以通过许多方式来实施本发明的方法和系统。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和系统。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是示例性的而非限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种校正原始文档的畸变文档图像中的几何畸变的方法，包括：

校正步骤，基于所述模型生成校正后的文档图像。

2.如权利要求1所述的方法，其中所述垂直消失点检测步骤包括如下子步骤：

从所述畸变文档图像中提取字符的多个垂直笔划；

通过多个垂直线段来拟合所述垂直笔划；

通过搜索所述垂直线段的最优会聚点，从垂直线段计算垂直消失点。

3.如权利要求2所述的方法，其中搜索所述垂直线段的最优会聚点的步骤包括如下子步骤：

计算所述垂直线段中的任何两条垂直线段之间的交点；

在所述交点之中选择使交叉角的正弦平方和最小化的交点作为最优会聚点，其中对于一个所述交点，每个交叉角是一条垂直线段与连接所述交点和所述垂直线段的中点的直线所限定的角。

4.如权利要求1-3中任一项所述的方法，其中所述水平消失点检测步骤包括如下子步骤：

对于每一个图像条带，

从所述畸变文档图像中沿文本行的方向定位文本行曲线；

提取在图像条带中定位的文本行曲线的片段；

通过水平线段拟合所述文本行曲线的片段；以及

通过搜索水平线段的最优会聚点，从所述水平线段计算水平消失点。

5.如权利要求4所述的方法，其中从所述畸变文档图像中沿文本行的方向定位文本行曲线的子步骤包括：

中等高度点提取步骤，提取畸变文档图像中的字符的像素的中等高度点；

文本行曲线定位步骤，通过使用所述中等高度点，定位穿过所述文本行中的字符的中等高度的文本行曲线。

6.如权利要求4所述的方法，其中搜索水平线段的最优会聚点的步骤包括如下子步骤：

计算所述水平线段中的任何两条水平线段之间的交点；

在所述交点之中选择使交叉角的正弦平方和最小化的交点作为最优会聚点，其中对于一个所述交点，每个交叉角是一条水平线段与连接所述交点和所述水平线段的中点的直线所限定的角。

7.如权利要求5所述的方法，其中搜索水平线段的最优会聚点的步骤包括如下子步骤：

计算所述水平线段中的任何两条水平线段之间的交点；

8.如权利要求1-7中任一项所述的方法，其中所述畸变模型是网图模型，所述网图模型是由描述水平方向上的畸变的一组水平曲线和一组所述垂直线构成的，所述水平曲线是基于所述图像条带的所述水平消失点产生的。

9.一种校正原始文档的畸变文档图像中的几何畸变的系统，包括：

校正装置，用于基于所述模型生成校正后的文档图像。

10.如权利要求9所述的系统，其中所述垂直消失点检测装置进一步包括：

用于从所述畸变文档图像中提取字符的多个垂直笔划的装置；

用于通过多个垂直线段来拟合所述垂直笔划的装置；

用于通过搜索所述垂直线段的最优会聚点从垂直线段计算垂直消失点的装置。

11.如权利要求10所述的系统，其中用于通过搜索所述垂直线段的最优会聚点从垂直线段计算垂直消失点的装置进一步包括：

用于计算所述垂直线段中的任何两条垂直线段之间的交点的装置；

用于在所述交点之中选择使交叉角的正弦平方和最小化的交点作为最优会聚点的装置，其中对于一个所述交点，每个交叉角是一条垂直线段与连接所述交点和所述垂直线段的中点的直线所限定的角。

12.如权利要求9-11中任一项所述的系统，其中所述水平消失点检测装置进一步包括：

用于从所述畸变文档图像中沿文本行的方向定位文本行曲线的装置；

用于提取在图像条带中定位的文本行曲线的片段的装置；

用于通过水平线段拟合所述文本行曲线的片段的装置；

用于通过搜索水平线段的最优会聚点从所述水平线段计算水平消失点的装置。

13.如权利要求12所述的系统，其中所述用于从所述畸变文档图像中沿文本行的方向定位文本行曲线的装置包括：

中等高度点提取装置，用于提取畸变文档图像中的字符的像素的中等高度点；

文本行曲线定位装置，用于通过使用所述中等高度点，定位穿过所述文本行中的字符的中等高度的文本行曲线。

14.如权利要求12所述的系统，其中用于通过搜索水平线段的最优会聚点从所述水平线段计算水平消失点的装置进一步包括：

用于计算所述水平线段中的任何两条水平线段之间的交点的装置；

用于在所述交点之中选择使交叉角的正弦平方和最小化的交点作为最优会聚点的装置，其中对于一个所述交点，每个交叉角是一条水平线段与连接所述交点和所述水平线段的中点的直线所限定的角。

15.如权利要求13所述的系统，其中用于通过搜索水平线段的最优会聚点从所述水平线段计算水平消失点的装置进一步包括：

16.如权利要求9-15中任一项所述的系统，其中所述畸变模型是网图模型，所述网图模型是由描述水平方向上的畸变的一组水平曲线和一组所述垂直线构成的，所述水平曲线是基于所述图像条带的所述水平消失点产生的。