CN101192269B

CN101192269B - 从图像估计消失点的方法和装置、计算机程序及其存储介质

Info

Publication number: CN101192269B
Application number: CN2006101631637A
Authority: CN
Inventors: 曾旭; 胥立丰; 肖其林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-11-29
Filing date: 2006-11-29
Publication date: 2012-05-02
Anticipated expiration: 2026-11-29
Also published as: US20080260256A1; CN101192269A; US8045804B2

Abstract

本发明公开了一种用于从图像估计消失点的方法和装置、计算机程序及其存储介质。根据本发明的用于从图像检测消失点的方法之一包括：用于将图像划分成小片的划分步骤；用于检测每片的局部方向的第一检测步骤；用于根据在第一检测步骤中检测出的局部方向组合方向线束的直线的组合步骤；和用于根据在所述组合步骤中组合的方向线束的直线计算至少一个消失点的第一计算步骤。在由本发明获取的消失点的基础上，可以准确而快速地对文档图像执行透视校正。

Description

从图像估计消失点的方法和装置、计算机程序及其存储介质

技术领域

本发明一般地涉及用于自动透视校正的方法。更具体地说，本发明涉及用于从图像(例如，文档图像)估计消失点的方法和装置、计算机程序及其存储介质。

背景技术

文档扫描广泛地用于捕获文本及将其转换成电子形式以便进一步的处理。随着近年来照相机分辨率的提高，通过数字照相机捕获文本变为一种替代的选择。数字照相机便携并且提供正面、非接触、近乎即时的图像获取，但是由于在宽范围的使用条件下操作而受到图像质量问题的困扰。最严重的问题之一是照相机以任意透视拍摄文档并且给所捕获的图像带来透视失真。透视的存在使读者困惑并且使比如光学字符识别(OCR)、布局分析和压缩的图像分析操作缓慢并且不可靠。

因此，需要自动纠正透视失真的图像以产生文本区域的正视图(upright view)。

尽管几何校正已相当地成熟，比如由R.M.Haralick在“Monocular vision using inverse perspective projection geometry：analytic relations(使用逆透视投影几何的单眼视觉：解析关系)，Proceedings of the IEEE Computer Vision and Pattern RecognitionConference 1989；370-378”中提出的方法，但是在该文献中未提及针对通过数字照相机捕获的透视失真文档图像的校正技术。在由P.Clark和M.Mirmehdi公开的“Recognizing text in real scenes(真实场景中识别文本)，International Journal of Document Analysis and Recognition4(4)(2002)243-257”中，利用由背景和文本所在平面之间的边界形成的四边形取得透视失真文本的正视图。在使用感知分组方法提取四边形之后，执行双线性插值操作构造修正的文档图像。由于该算法严重依赖四边形的提取，所以所捕获的文档图像中存在高对比度文档边界(HDB)是正确校正的必要条件。

取代使用在真实场景中不是总存在的文档边界，M.Pilu基于虚线索的提取在“Extraction of illusory linear clues in perspectivelyskewed documents(在透视地倾斜文档中提取虚线性线索)，Proceedings of the IEEE Computer Vision and Pattern RecognitionConference 2001；363-368”中提出一种新的校正方法。为了提取水平线索，首先将字符或字符组变换为模糊点并且为相邻的模糊点对计算成对突出尺寸，其指示它们属于一条文本线的可能性。其后，基于知觉组织原则的网络横跨该文本，并且计算水平线索作为模糊点的突出线性组。尽管在水平线索的提取方面做得很好，但该方法不能提取足够的垂直信息。

在由C.R.Dance提出的“Perspective estimation for documentimages(文档图像的透视估计)，Proceeding of the SPIE Conference onDocument Recognition and Retrieval IX 2002；244-254”中，使用基于从文本线提取的平行线和垂直段落空白(VPM)估计的两个主要消失点矫正失真的文档图像。此方法的主要缺点是它仅工作于完全对齐的文本，因为它严重依赖于VPM特征的存在。另外，也未阐明提取平行线的方法。

在由P.Clark和M.Mirmehdi公开的“Rectifying perspectiveviews of text in 3D scenes using vanishing points(使用消失点在3D场景中校正文本的透视图)，Pattern Recognition 36(2003)2673-2686”中，根据一些段落格式(PF)信息估计两个消失点。更具体地，根据新颖的2D投影柱状图的扩展计算水平消失点，并且当段落未充分对齐时根据一些PF信息比如VPM或文本线间隔变化计算垂直消失点。然而，为实现这种校正方法，需要很好格式化过的段落。

如今，可以校正透视失真文档图像的若干应用已经进入市场，例如，Casio EX-Z55和Wintone Huishi。然而，它们都依赖于HDB提取，并且由于缺少足够的边界信息，结果不可靠。

发明内容

鉴于上述情况，完成本发明并且其目的是自动地纠正透视失真图像以产生文本区域的正视图。

为了实现上述目的，根据本发明的一个方面，提供一种用于从图像检测消失点的方法，包括：用于将图像划分为小片的划分步骤；用于检测每片的局部方向的第一检测步骤；用于根据在第一检测步骤中检测出的局部方向组合方向线束的直线的组合步骤；以及用于根据所述组合步骤中组合的方向线束的直线计算至少一个消失点的第一计算步骤。

为了实现上述目的，根据本发明的另一个方面，提供一种用于从图像检测消失点的另一方法，包括：用于检测图像边缘并且形成边缘图像的第二检测步骤；用于从所述边缘图像提取文本基线并形成文本基线图像的提取步骤；和用于从所述文本基线图像获取水平消失点的获取步骤。

根据一个优选实施例，在由上述方法获取的水平消失点的基础上进一步定位垂直消失点。

此外，在以上获取的消失点的基础上提供了一种用于文档图像的透视校正的方法。

为了实现上述目的，根据本发明的另一方面，提供了一种用于从图像检测消失点的装置，包括：用于将图像划分为小片的划分装置；用于检测每片的局部方向的第一检测装置；用于根据由第一检测装置检测出的局部方向组合方向线束的组合装置；以及周于根据由所述组合装置组合的方向线束的直线计算至少一个消失点的第一计算装置。

为了实现上述目的，根据本发明的另一方面，提供了一种用于从图像检测消失点的另一装置，包括：用于检测图像边缘并且形成边缘图像的第二检测装置；用于从所述边缘图像提取文本基线并且形成文本基线图像的提取装置；和用于从所述文本基线图像获取水平消失点的获取装置。

根据一个优选实施例，由上述装置在获取的水平消失点的基础上进一步定位垂直消失点。

此外，在以上获取的消失点的基础上提供了一种用于文档图像中的透视校正的装置。

也提供了用于实现从具有复杂背景的文档图像提取文本的上述方法的计算机程序。

另外，也提供了在至少一个计算机可读介质中的计算机程序产品，该计算机可读介质包括用于实现从具有复杂背景的文档图像提取文本的上述方法的程序代码。

可见，不同于严重依赖文档边界(DB)或段落格式(PF)的上述现有技术中的方法，本发明从纹理区域的局部频谱方向信息和字符的边缘信息检测消失点。然后可以从检测出的消失点导出校正矩阵。由此，本发明既不需要文档边界也不需要段落格式信息。根据本发明的算法也可以处理具有图案和图形的文档图像，比如数学等式。

本发明的其他目的、特征和优点将从以下结合附图的描述中显而易见，附图中相似的参考符号在整个附图中表示相同或相似的部分。

附图说明

包括在本说明书中并构成说明书一部分的附图示出本发明的实施例，并且与以下描述一起用于解释本发明的原理。在附图中：

图1示出可用于本发明的计算机系统的框图；

图2示出根据本发明的第一实施例用于从文档图像检测消失点的流程图；

图3是示出用于分析原始图像中每片的局部方向的方法的流程图；

图4a示出从原始图像取出的示例纹理(texture)片之一；

图4b示出在图4a中所示的纹理片上频谱滤波之后的结果；

图4c示出由FFT计算图4b中所示的滤波过的小片的频谱的结果；

图4d示出在图4c中所示的滤波过的频谱上的删减结果；

图5a示出二维独立分量分析图解；

图5b示出通过使用图5a中所示的二维独立分量分析的频谱方向结果；

图5c示出通过使用图5a中所示的二维独立分量分析的纹理方向结果；

图6是示出根据本发明的第一实施例的自适应方向线束删减的过程的流程图；

图7a示出对于非平行情况的原始方向线束；

图7b示出根据本发明的第一实施例对于图7a中所示的非平行情况、关于原始方向线束的删减后的方向线束；

图7c示出对于平行情况的原始方向线束；

图7d示出根据本发明的第一实施例对于图7c中所示的平行情况关于原始方向线束的删减后的方向线束；

图8示出纹理文档图像中消失点估计的实例，其中图8a示出原始局部水平方向线束并且图8b示出原始局部垂直方向线束，图8c示出原始图像并且图8d示出具有标记的消失点的图像；

图9示出根据本发明的第二实施例用于从文档图像检测消失点的方法的流程图；

图10示出根据本发明的第二实施例用于提取文本基线的方法的流程图；

图11示出水平压缩的角度放大效果；

图12a示出根据本发明的第二实施例由提取文本基线的方法获取的X压缩的边缘图像；

图12b示出根据本发明的第二实施例由提取文本基线的方法提取的文本线图像；

图12c示出根据本发明的第二实施例由提取文本基线的方法提取的基线图像；

图12d示出根据本发明的第二实施例的子图像和它们的倾斜；

图13示出根据本发明的第二实施例的从图12d的子图像引出的直线与穿过水平消失点的大体位置和子图像中心的直线之间的交叉角度；

图14示出根据本发明的第二实施例的搜索空间C和R²之间的关系；

图15示出根据本发明的第二实施例的搜索空间中的扫描过程；

图16示出原始透视失真图像；

图17示出根据本发明的第二实施例的HVP的结果；

图18示出根据本发明的第二实施例的用于定位垂直消失点的参数之间的关系；

图19至图25给出应用根据第二实施例提出的方法所获得的透视校正结果，其中图19示出透视失真图像，图20示出检测出的水平消失点HVP和从该点，即HVP引出的所有水平线，图21示出在去除不属于垂直笔划的边缘之前从边缘图像裁取的图像块，图22示出在去除不属于垂直笔划的边缘之后从边缘图像裁取的图像块，图23示出检测出的线段(垂直笔划)，图24示出检测出的水平消失点HVP和垂直消失点VVP以及从HVP引出的所有水平线和从VVP引出的所有垂直线，并且图25示出根据本发明的第二实施例的透视校正的图像；和

图26示出基于可以应用根据本发明的第一和第二实施例的用于从文档图像检测消失点的方法的数字照相机的文档输入系统。

具体实施方式

在以下具体描述中，阐明众多特定细节以提供对本发明的彻底理解。但是，本领域普通技术人员应意识到本发明不应受这些特定细节的限制。

首先，将参考图1描述可以实现本发明的计算机系统的实例。

可以在任何图像处理设备，例如，个人计算机(PC)、笔记本、或嵌入照相机、摄像机、扫描仪等的单片机(SCM)中实现本发明的方法。对于本领域的技术人员，通过软件、硬件和/或固件将容易实现本发明的方法。应特别注意，为了实现本方法的任何步骤或步骤的任何组合，或者元件的任何组合，显而易见对于本领域技术人员来说，使用I/O设备、存储设备、比如CPU的微处理器等是必要的。以下描述和本发明的方法将不必要提及这些设备，尽管实际上使用了它们。

如以上提到的图像处理设备，图1中示出的框图示出可用于本发明的典型计算机系统的一个实例。注意在图1示出计算机系统的各种元件时，其不意在表示任何特殊结构或互相连接元件的方式，因为这些细节不与本发明密切相关。也将理解，也可以将具有更少元件或者也许更多元件的网络计算机和其他数据处理系统用于本发明。

如图1所示，作为数据处理系统的一种形式的计算机系统，包括连接到微处理器102、ROM 104、易失性RAM 105和非易失性存储器106的总线101。微处理器102可以是Intel公司的Pentium微处理器，连接到高速缓冲存储器103，如图1的实例中所示。总线101将各种元件互连在一起，并且也将这些元件103、104、105和106互相连接到显示控制器和显示设备107，并且连接到外围设备，比如可以是鼠标、键盘、调制解调器、网络接口、打印机以及本领域中已熟知的其他设备的输入/输出(I/O)设备。典型地，通过输入/输出控制器108将输入/输出设备109连接到该系统。易失性RAM 105典型地实施为动态RAM(DRAM)，其需要持续的电源以刷新或保持存储器中的数据。非易失性存储器106典型地是磁性硬盘、磁光盘、光盘、DVD RAM或其他类型的存储设备，其即使在将电源从系统移除之后也保持数据。典型地，尽管不是必要的，非易失性存储器也将可以是随机存取存储器。尽管图1示出非易失性存储器是直接连接到数据处理系统中的其余元件的本地设备，但是本发明也可以利用远程系统的非易失性存储器，比如通过调制解调器或以太网接口的网络接口连接到数据处理系统的网络存储设备。总线101可包括通过本领域中熟知的各种桥路、控制器和/或适配器互相连接的一个或多个总线。在一个实施例中，I/O控制器108包括用于控制USB外围设备的USB(通用串行总线)适配器。

接下来，将参考附图具体解释根据本发明的从文档图像估计消失点的方法的实施例。

在说明本发明的具体实施例之前，将在下表中简略地概述本发明中使用的技术术语。

ICA	独立分量分析
		FFT	快速傅立叶变换
DC	直流分量
		方向线束	通过一点的所有直线的集合。对于具体信息，请参考以下网页http://mathworld.wolfram.com/Pencil.html
方向线束删减	根据直线的质量一个接一个地删除方向线束中最差的直线，直到方向线束质量足够好为止。
		方向线束分析	获取方向线束的消失点
消失点	消失点定义为在真实空间中平行线的投影所产生的图像平面中直线的汇聚点。对于具体信息，请参考以下网页：http://mathworld.wolfram.com/VanishingPoint.html
		HVP	在本发明中描述的实施例中，水平消失点(HVP)是水平线(例如，文本基线)的汇聚点。
VVP	在本发明中描述的实施例中，垂直消失点(VVP)是垂直线(例如，垂直笔划、判断出的段落边界)的汇聚点。
		“OR”压缩	“OR”是指对于从原始图像到压缩图像的N到1映射，如果在N个像素中至少有一个黑色像素，则将压缩图像上的像素设为黑色。
文本基线	文本基线是由压缩图像中每个字符的基线(例如，欧洲语言)或底线(例如，东亚语言)构成的连续或不连续的直线。
		校正矩阵	根据由R.M.Haralick在“Monocular vision using inverseperspective projection geometry：analytic relations(使用逆透视投影几何的单眼视觉：解析关系)，Proceedings of the IEEE ComputerVision and Pattern Recognition Conference 1989；370-378”中提出的几何校正方法，3×3的校正矩阵可以从HVP和VVP导出。它是失真矩阵的逆。通过使用校正矩阵，可以从失真图像容易地恢复正视图。

现在结合附图采用以上定义的技术术语描述本发明。请注意，除非特别说明，以下描述和权利要求中提到的相关技术术语一般将被解释为上表中定义的含意。

[第一实施例]

图2示出根据本发明的第一实施例用于从文档图像检测消失点的方法的流程图。

如图2中所示，首先在步骤100，在原始图像中设置一些采样点，例如，均匀地选择8×8个点。每个采样点与小片(小区域)的模板尺寸有关，比如64、128或256，应适合于FFT(快速傅立叶变换)。在步骤100的过程之后，将原始图像划分为一些小片(即，从原始图像中提取一些小区域)，并且每片以一个采样点为中心。

然后，在步骤200中，分析每片的局部方向。很难直接分析纹理片的方向。一般地通过频谱估计它们。虽然本发明也基于该设想，但是本方法是通过ICA(独立分量分析)分析频谱。步骤200包括如图3所示的四个子过程。

图3是示出用于分析原始图像中每片的局部方向的方法的流程图。应注意，以下描述针对图4a中所示的从原始图像取出的示例纹理片。

如图3中所示，在步骤210中，频谱滤波器(例如，汉宁(Hanning)滤波器)被用于通过卷积预处理如图4a所示的图像片以获取平滑的频谱响应。在图4b中示出了频谱滤波的预处理结果。图4b示出在图4a中所示的纹理片上进行频谱滤波之后的结果。

然后，在步骤220中，通过FFT计算图4b中所示的滤波过的片的频谱，并且移动(shift)至对称的一个。计算结果如图4c所示。图4c示出通过FFT计算图4b中所示的滤波过的片的频谱的结果。

由于直接分析原始频谱很麻烦，所以本发明在保持原始频谱的结构信息的同时为了优化而删减频谱。在步骤230，通过仅保留前n(例如，n＝模板大小)个最大的频谱分量而删减频谱。应注意，也删除DC(直流)分量。结果在图4d中示出。图4d示出图4c中所示的滤波过的频谱上的删减结果。

此后，在步骤240中由本发明的ICA算法分析删减过的频谱。

一般来讲，根据本发明的ICA算法包括三个步骤：1)置中心(centering)，2)白化，3)最大化目标函数。

对于频谱图像X，频谱图像上的每个点具有两个坐标x和y，并且每个点的频谱值定义为采样点概率p。C_x是X的协方差。这里，将中心点定义为原点用于置中心。

白化是寻找变换V，使得s.t.Y＝VX是白的。即，为了使得Y的协方差是单位矩阵。这里：

V = Λ^{\frac{1}{2}} Θ^{T} - - - (1)

其中A是C_x的特征值(对角线)，并且Θ是C_x的列特征向量。

对于二维的情况，ICA简化为旋转变量R，即，仅一个变量，使得输出S＝RY的PDF(概率分布函数)尽可能不同于高斯函数。这里：

R = [\begin{matrix} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{matrix}], - - - (2)

其中θ∈[-45°，45°]。

寻找θ使得非高斯值最大。最普遍使用的非高斯标准是峰度(Kurtosis)，定义为：

κ(x)＝E[X⁴]-3(E[X²])²。(3)

对于高斯随机变量峰度是零，因此搜索相应于最大绝对峰度值的θ。图5a中示出实例。

观测信号是X＝AS，因此：

A＝(RV)^-1，(4)

其中A的列向量表示两个独立的方向，如图5b中所示。图5b示出使用图5a中所示的二维独立分量分析得到的频谱方向结果。应注意频谱方向与原始片的方向正交。图5c中示出该结果。图5c示出使用图5a中所示的二维独立分量分析得到的纹理方向结果。

另外，应注意上述步骤200也含有部分ICA算法，如以下所说明的。

等式(4)可以同时计算两个局部独立方向。在一些情况中，预先已知一个方向，则通过搜索θ可以使用等式(4)计算另一方向，使得预先已知的方向和计算出的方向中的一个之间的差最小。从而，可以获取另一方向。当预先已知一个方向时，此方法是十分快速的。

现在返回图2，在以上述方法分析每片的局部方向之后，进程前进到步骤300，其中由采样点和片的局部方向构成方向线束。这里，方向线束表示通过消失点的所有直线的集合。

既然每片具有两个方向，那么可以由它们的倾斜方向容易地将它们分类。因此，可以通过它们的局部方向和相关的采样点为每片画出两条直线。将这些直线表示为r＝xcosθ+ysinθ。可以简单地将所有直线归类为“垂直的”或“水平的”。假定每组直线在一个消失点相交，由此形成方向线束。

此后，进程前进到步骤400，以执行自适应方向线束直线删减过程(自适应方向线束直线删除过程)。

由于方向线束直线在真实情况中进行估计，因此在方向线束中可能包括一些噪声线。为得到更好的结果应删减(删除)方向线束的一些噪声线。步骤400将自适应地删减这些噪声线并且以下解释该具体细节。

如果三条直线(r_i，θ_i)、(r_j，θ_j)、(r_k，θ_k)平行或相交于一点，那么存在以下关系：

r_isin(θ_j-θ_k)+r_jsin(θ_k-θ_i)+r_ksin(θ_i-θ_j)＝0。(5)

此公式非常简单并且只要根据定义就易于证明。这样，根据本发明自适应地删减噪声线的方法基于此公式。

对方向线束中的每条直线(r_i，θ_i)，由以下等式定义直线质量：

{LineQ}_{i} = \underset{j, k}{Σ} | r_{i} \sin (θ_{j} - θ_{k}) + r_{j} \sin (θ_{k} - θ_{i}) + r_{k} \sin (θ_{i} - θ_{j}) | . - - - (6)

LineQ_i越小表示直线质量越好。

另外，方向线束的质量定义为：

PencilQ = \frac{\underset{i}{Σ} Line Q_{i}}{N | r_{0} |}, - - - (7)

其中N是方向线束直线的量，r₀属于具有最小LineQ的直线，并且在此用它来标准化。PencilQ的值仅当如等式(7)标准化过时才有意义。可将等式(7)视为方向线束的固有度量标准，因为它与坐标原点、平移、缩放和旋转不相关。

对于任何良好的方向线束PencilQ应很小。在将良好的方向线束质量阈值设置为PencilQ_Th(例如PencilQ_Th＝0.5)之后，就可以计算方向线束的质量。如果它大于PencilQ_Th，则删除具有最大LineQ的最差的直线(N＝N-1)，并且重新计算方向线束的质量，直到它小于PencilQ_Th。图5示出此过程。在真实情况中，方向线束可具有两种状态，平行或非平行。二者都可先由上述过程删减。在方向线束质量足够好之后，可以容易地区分平行的情况，比如通过角度方差。

图6中示出步骤400中的子过程。图6是示出自适应的方向线束直线删减的过程的流程图。

如图6中所示，首先在步骤410，计算每条直线的质量LineQ。

然后，在步骤420中，通过联立等式(6)和等式(7)计算每条方向线束的质量。

在计算每条方向线束的质量之后，将方向线束的质量与预定的阈值相比较，以判断方向线束是否足够好。

如果方向线束的质量大于该阈值，则进程前进到步骤430，删减方向线束，并且再次计算每条方向线束的质量。在步骤430中，由于方向线束不够好，因此通过根据直线的质量删除最差的直线来删减方向线束。

重复上述步骤直到方向线束质量足够好，即，异常线都被清除掉。

自适应方向线束删减的结果如图7中所示。图7a示出非平行情况的原始方向线束，并且图7b示出根据本发明的第一实施例对于图7a中所示的非平行情况关于原始方向线束删减后的方向线束。另外，图7c示出对于平行情况的原始方向线束，并且图7d示出根据本发明的第一实施例对于图7c中所示的平行情况关于原始方向线束的删减的方向线束。

现在再次返回图2，在自适应地删减方向线束之后，进程从步骤400前进步骤500。在步骤500中，以下面导出的公式计算消失点。

每个方向线束对应于消失点。然而，仍然没有可靠的方法计算这种消失点。因此本发明通过新导出的公式提出一种新方法，并且下面解释具体细节。

如果在透视失真图像中获取方向线束(一系列直线(r_i，θ_i)，其中i∈[1，N])，并且假定它具有消失点(x₀，y₀)。对于穿过(x₀，y₀)的任何直线(r，θ)，可以得到以下等式(8)：

r＝x₀cosθ+y₀sinθ。(8)

对于此方向线束中的任意两条直线(r_i，θ_i)和(r_j，θ_j)，它们和直线(r，θ)必须满足等式(5)。

目标函数E定义为：

E = \underset{i, j}{Σ} {(r \sin (θ_{i} - θ_{j}) + r_{i} \sin (θ_{j} - θ) + r_{j} \sin (θ - θ_{i}))}^{2}, - - - (9)

这里，可以将E视为消失点对方向线束的吻合度的总体度量。E≥0(仅在理想情况中E＝0，即方向线束精确地相交于一点)，并且仅当(r，θ)穿过该方向线束的假定的消失点时E最小。基于此分析，可以导出以下等式(10)：

\frac{&PartialD; E}{&PartialD; r} = 0, - - - (10)

如果(r，θ)穿过消失点。

联立等式(9)和等式(10)，可以得到如下的等式(11)：

r = \frac{\underset{i, j}{Σ} \sin (θ_{i} - θ_{j}) [r_{i} \sin (θ_{j} - θ) + r_{j} \sin (θ - θ_{i})]}{- \underset{i, j}{Σ} \sin^{2} (θ_{i} - θ_{j})} . - - - (11)

通过比较等式(11)和等式(8)，可以估计消失点(x₀，y₀)为：

[\begin{matrix} x_{0} \\ y_{0} \end{matrix}] = \frac{- 1}{\underset{i, j}{Σ} \sin^{2} (θ_{i} - θ_{j})} [\begin{matrix} \underset{i, j}{Σ} \sin (θ_{i} - θ_{j}) (r_{i} \sin θ_{j} - r_{j} \sin θ_{i}) \\ \underset{i, j}{Σ} \sin (θ_{i} - θ_{j}) (r_{j} \cos θ_{i} - r_{i} \cos θ_{j}) \end{matrix}] . - - - (12)

等式(12)是根据本发明提出的消失点估计方法。图8示出在纹理文档图像中用于估计消失点的实例，其中图8a示出原始局部水平方向线束并且图8b示出原始局部垂直方向线束，图8c示出原始图像并且图8d示出具有标记的消失点的图像。

[第二实施例]

作为本发明的另一实施例，通过分析字符的边缘信息定位消失点，这不同于上述的本发明的第一实施例。图9中示出根据本发明的第二实施例的方法的主要步骤。

图9示出根据本发明的第二实施例用于从文档图像检测消失点的方法的流程图。

如图9所示，首先在步骤9100中，执行检测边缘并去除非文本边缘。

为了利于边缘检测，首先将彩色图像和BW图像转化为它们的灰度级表示。以随后接着非最大抑制的Sobel边缘检测器检测边缘。

通过使用Otsu的阈值方法从梯度幅度的柱状图自动计算Sobel边缘检测器的灵敏度阈值(ST)。边缘检测器忽略不强于该灵敏度阈值ST的所有边缘。

边缘检测之后，对边缘图像执行连通分量(CC)分析以去除非文本边缘。连通分量分析主要基于连通分量的尺寸和纵横比。如果连通分量的尺寸过大或过小，或者连通分量具有大纵横比(在这种情况中，很可能是直线)，则将连通分量归类为非文本连通分量。并且从边缘图像去除属于非文本连通分量的所有边缘。

然后，在步骤9200中，提取文本基线。边缘图像中的大部分边缘现在属于字符。可以基于从文本排列信息提取的平行线，比如文本基线，估计水平消失点(HVP)。在本发明中，通过使用图10所示的方法提取文本基线。

当提取文本基线时，需要取得基线图像的主要方向用于以后的处理和HVP获取。此主要方向是由倾斜检测在原始灰度图像上检测出的粗略的文本线方向。基于最近的邻接的方法(the nearest neighborbased method)，比如由C.R.Dance在“Perspective estimation fordocument images(用于文档图像的透视估计)，Proceedings of the SPIEConference on Document Recognition and Retrieval IX 2002；244-254”中公开的方法，被用于检测文档图像的粗略的倾斜角度。将此角度作为文本线方向。一种代替的方法是在不同的预先给定的方向，例如0、-30、30和90度中产生若干基线图像，并且选择具有最好的连续性和线性的最好的一个。

倾斜检测之后，在步骤1001中以确定出的粗略倾斜角度或特定的预先给定的方向旋转边缘图像。

然后在步骤1002中，由“OR”方法沿X方向压缩所旋转的图像。压缩比应根据字符尺寸或图像尺寸可变。此类的各向异性“OR”压缩可带来两个好处。第一，紧密的字符和紧密的文字将被连接成文本线，比如如图12a中所示的X压缩的边缘图像。第二，失真或倾斜将被放大。因此它使得失真检测更容易，如图11中所示，其示出水平压缩的角度放大效果。

为了得到更连续的基线，在步骤1003中在压缩图像上沿X方向执行已知的RLSA(游程长度平滑算法)操作以将文字连接成线。最小游程长度的阈值设为4。并且然后在步骤1004中通过获取和分析白连通分量，填充字符(文字)中以及字符(文字)之间的空间(小“洞”)。在示出文本线图像的图12b中可示出该结果。其后，在步骤1005中，通过找回沿Y方向的黑游程的结束点，提取沿Y方向的黑游程的结束点作为基线点，如示出基线图像的图12c所示。

在根据如图10所示的上述方法提取文本基线之后，进程返回图9中所示的步骤9300。

在步骤9300中，定位水平消失点。通过在步骤9300-1中首先定位HVP的粗略位置、并且然后在步骤9300-2中在粗略HVP的邻域中获取HVP的准确位置来执行该处理过程，在下面的说明中具体描述。

首先在步骤9300-1中，定位粗略的HVP。

在得到基线图像之后，将其划分为M＝2×N个子图像。这里，M是经验值，并且N是步骤9300中定义的压缩比。并且对于每个子图像I_i，确定平均倾斜θ_i，并且通过基于投影柱状图的方法确定定义为投影柱状图的平方和的最大报偿(premium)W_i。这里，假设在子图像中仅存在倾斜失真。这些子图像中的透视失真小到可以被忽略。图12d示出子图像和它们的倾斜。

然后根据子图像的那些多个倾斜计算HVP的粗略位置。直线可以从每个子图像的中心

以角度θ_i和权重W_i引出。给定直线集合L≡{L_i，i＝0，...，M-1}，递归地组合两条直线，得到相交点(x₀，y₀)，并且计算以下函数：

f (x_{0}, y_{0}) = Σ_{i = 0}^{L - 1} (W_{i} | β_{i} < Δβ)

其中，β_i(如示出β_i的图13所示)是直线L_i与穿过(x₀，y₀)和

的直线之间的交角。Δβ在交角上定义小范围容限。f(x₀，y₀)揭示了有多少条穿过(x₀，y₀)的加权线。选择具有最大f(x₀，y₀)的(x₀，y₀)作为水平消失点的粗略位置。

然后，在步骤9300-2中，定位准确的HVP。

最后，使用基于基线图像的投影柱状图的另一方法获取准确的HVP。此两种方法的结合使得HVP定位计算成本较少而精确度较高。

使用如图14所示的圆形搜索空间C。图14示出搜索空间C和R²之间的关系。空间C中的每个单元c＝(r，θ)，0≤r＜1并且0≤θ＜360°，对应于图像平面R²上距图像中心V_r＝R₀[r/(1-r)]、角度为V_θ＝θ的假定的水平消失点V＝(V_r，V_θ)。R₀是图像半径。这就将无限平面R²映射到有限的搜索空间C。除了那些位于图像区自身的，为C中每个假定的HVP产生投影柱状图。并且投影柱状图η是投影柱{η_i，i＝0，1，2，...}的集合。

在透视变换中，在图像平面上连接至水平消失点具有相同角度的所有点必然在真实场景的相同水平线上。所以具有不同角度的像素被投影到投影柱状图中的不同投影柱。

比较从每个假定HVP映射的投影柱状图，并且挑出最适合的投影柱状图。其相应的HVP就是所需的点。

这里，搜索空间小于C，因为已经找到粗略HVP。其角度范围设置为±4°并且距离范围仅为大约整个距离范围的五分之一。

将简单分层方法用于搜索过程。执行在低分辨率下的搜索空间的初始二维扫描并且挑出具有投影柱状图的最大平方和的一个胜出HVP。然后在该胜出HVP周围的区域上，执行全分辨率二维扫描并且最后找到准确的HVP。

对于低分辨率，角度步长是0.5度并且将距离范围划分为8个相等的部分。对于全分辨率，角度步长和距离步长是低分辨率扫描中的六分之一。

在初始扫描步骤中，如果粗略HVP的距离足够大，则也可考虑粗略HVP的对称的角度。

由于X方向和Y方向中不同的压缩比，X基线图像中的两个维度不是各向同性的。为了保持扫描一致，需要在原始图像的搜索空间中产生假定的HVP。

每次扫描如图15进行。图15示出搜索空间中的扫描过程。

如图15中所示，首先在步骤1501，胜出(粗略)HVP被从X基线图像映射到原始图像。

然后，在步骤1502中，在搜索空间中获取原始图像上的所有假定HVP，并且在步骤1503中被从原始图像映射到X基线图像。

接下来，在步骤1504中，从每个假定HVP产生X基线图像的投影柱状图并计算它的平方和。最后在步骤1505中，投影柱状图具有最大平方和的胜出HVP被获取并被确定为准确的HVP。

在投影柱状图的分析中，根据其峰和谷，将投影柱状图划分为文本线(即，投影柱状图段)。然后检查这些段，并累计所有有效段的平方和，认为它是整个投影柱状图的平方和。

图16中示出原始透视失真图像并且图17示出HVP的结果。所有水平线都从相同的点，即HVP引出。对各种文档图像的多个评估显示，本发明中提出的方法是高精确的，并且它在一幅图像上花费的时间少于几百毫秒。

现在返回图9，在如上所述的定位水平消失点(HVP)之后，进程前进到步骤9400，其中去除不属于垂直笔划的边缘以更好地检测垂直笔划。

通过比较梯度方向和HVP线方向，去除不属于垂直笔划的边缘。HVP线是穿过当前边缘和HVP的直线。对于每个边缘i(x_i，y_i)，梯度方向通过下式计算：

{\tan θ}_{i} = \frac{{Gy}_{i}}{{Gx}_{i}}

其中，Gx_i和Gy_i是沿X方向和Y方向的梯度。

HVP线方向通过下式计算：

{\tan β}_{i} = \frac{vy - y_{i}}{vx - x_{i}}

| \tan {Δθ}_{i} | = | \tan (θ_{i} - β_{i}) | = | \frac{{\tan θ}_{i} - {\tan β}_{i}}{1 + \tan θ_{i} \tan β_{i}} |

在步骤9400中去除不属于垂直笔划的边缘之后，进程前进到步骤9500，其中检测与垂直笔划相关的线段。

通过在处理过的边缘图像上获取连通分量而找到候选垂直笔划。为了计算消失点的目的，仅考虑长度在特定范围(12＜L＜150)中的主要连通分量。

通过拟合以角度θ和距图像原点的距离ρ：ρ＝xcosθ+ysinθ参数化的直线，获取与垂直笔划相关的线段。

每个获取的连通分量是具有相似梯度方向的边缘像素(x_i，y_i)的排列。从与边缘像素有关的矩阵D的特征值λ₁和λ₂与特征向量v₁和v₂直接确定直线参数。

D = [\begin{matrix} Σ_{i} {\tilde{x}}_{i}^{2} & Σ_{i} {\tilde{x}}_{i} {\tilde{y}}_{i} \\ Σ_{i} {\tilde{x}}_{i} {\tilde{y}}_{i} & Σ_{i} {\tilde{y}}_{i}^{2} \end{matrix}]

其中

{\tilde{x}}_{i} = x_{i} - \overset{&OverBar;}{x}

和

{\tilde{y}}_{i} = y_{i} - \overset{&OverBar;}{y}

是属于特殊连通分量的平均修正像素坐标并且

\overset{&OverBar;}{x} = \frac{1}{n} Σ_{i} x_{i}

而

\overset{&OverBar;}{y} = \frac{1}{n} Σ_{i} y_{i} .

在理想直线的情况中，特征值之一应是零。

由矩阵D的两个特征值的比，

v = \frac{λ_{1}}{λ_{2}}

来刻画直线拟合的质量。从特征向量v₁，v₂确定直线参数，其中v₁是与最大特征值相关的特征向量。然后如下计算直线ρ＝xcosθ+ysinθ的参数

θ = α \tan (\frac{v_{1} (2)}{v_{1} (1)})

ρ = \overset{&OverBar;}{x} \cos θ + \overset{&OverBar;}{y} \sin θ

其中

是线段的中点。

在步骤9500中检测与垂直笔划相关的线段之后，进程前进到步骤9600，其中定位垂直消失点(VVP)。

步骤9500中的直线检测阶段给出线段集合L≡{L_l，l＝0，...，L-1}。此步骤的目的是从检测出的线段定位最佳汇聚点，即VVP。使用统计方法搜索VVP。该方法包括以下函数的最小化：

\min_{x_{0}, y_{0}} = Σ_{i} W_{i} {(\sin β_{i})}^{2}

W_{i} = \frac{v_{i}}{V}

{\sin β}_{i} = \frac{d_{i}}{r_{i}}

d_i＝|ρ_i-x₀cosθ_i-y₀sinθ_i|

r_{i} = \sqrt{{(x_{0} - {\overset{&OverBar;}{x}}_{i})}^{2} + {(y_{0} - {\overset{&OverBar;}{y}}_{i})}^{2}}

其中，v_i是第i条线段的长度，而V是所有线段的总长度。

是线段的中点。d_i是消失点(x₀，y₀)距线段i的距离。r_i是消失点和线段中心的距离。图18示出上述参数的关系。

这里，不试图在整个图像平面中，而是在线段的所有相交点的集合中搜索准确的垂直消失点(x₀，y₀)，这将极大地减少计算工作量。然而，如果线段数目大(＞1000)，在所有相交点中搜索仍然是耗时的。因此使用以下方法以减少待搜索的相交点数目。

步骤9601：投影线段中心的坐标

到穿过图像中心和水平消失点(HVP)的直线L上。

步骤9602：选择25％最左边的线段到组1中。选择25％最右边的线段到组2中。

步骤9603：从组1选择100条最长的线段并且从组2选择100条最长的线段。

步骤9604：在步骤9603中选出的所选线段的相交点中搜索。

在步骤9300中定位水平消失点并且在步骤9600中定位垂直消失点之后，在步骤9700中建立校正矩阵。根据已知的几何校正，可以从HVP和VVP导出3×3的校正矩阵。

图19至图25给出应用根据第二实施例提出的方法的透视校正的结果，其中图19示出透视失真图像，图20示出检测出的水平消失点HVP和从该点，即HVP引出的所有水平线，图21示出在去除不属于垂直笔划的边缘之前从边缘图像裁取的图像块，图22示出在去除不属于垂直笔划的边缘之后从边缘图像裁取的图像块，图23示出检测出的线段(垂直笔划)，图24示出检测出的水平消失点HVP和垂直消失点VVP以及从HVP引出的所有水平线和从VVP引出的所有垂直线，并且图25示出根据本发明的第二实施例的透视校正的图像。

可以在基于比如图26中所示的数字照相机的文档输入系统中使用根据本发明的第一和第二实施例的从文档图像检测消失点的上述方法。

图26示出基于数字照相机的文档输入系统，其中可以应用根据本发明的第一和第二实施例的从文档图像检测消失点的方法。

如图26中所示，在步骤2601中由数字照相机拍摄文档页面。然后，在步骤2602中，由根据本发明的第一和第二实施例的从文档图像检测消失点的上述方法修正由数字照相机拍摄的文档页面中包含的透视失真。

接下来，在步骤2603中，在已修正过透视失真的文档页面中找到文本分量。在步骤2604中执行光学字符识别之后，在步骤2605中可输出原始文档图像中的文本。

除了以上提到的本发明的具体实施例的方法和装置，也可以通过在可与任何后续处理装置通信的如上所述的任何信息处理设备上运行程序或程序集实现本发明的目的。所述的信息处理设备和后续处理装置可以是全部已知的通用设备。

因此，需着重注意，本发明包括通过直接或远程地提供实现前述实施例功能的软件的程序(相应于实施例中所示流程的程序)给系统或装置，并通过该系统或装置的计算机读出并执行所提供的程序代码而实现本发明的情况。在这种情况中，只要可以提供程序功能，不限制程序的形式。

因此，其自身安装在计算机中以使用计算机实现本发明的功能过程的程序代码实现本发明。即，本发明包括计算机程序本身用于实现本发明的功能过程。

在这种情况中，程序的形式不受特别限制，并且可以使用由解释器执行的目标代码、程序、提供给OS的脚本数据等，只要它们具有所述程序的功能。

可以使用例如，软盘、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM、DVD(DVD-ROM、DVD-R)等作为用于提供程序的记录介质。

作为另一种程序提供方法，可以使用客户端计算机上的浏览器建立到因特网上的给定网页的连接，并且可以从该网页将本发明的计算机程序本身或被压缩并包括自动安装功能的文件下载到比如硬盘等的记录介质，从而提供程序。同样，可以将形成本发明的程序的程序代码分解成多个文件，并且可以从不同的网页下载这些文件。即，本发明也包括使多个用户下载程序文件用于使用计算机实现本发明的功能过程的WNW服务器。

同样，可以将存储了本发明的加密的程序的存储介质，比如CD-ROM等递送给用户，可允许满足规定条件的用户经因特网从网页下载解密程序的密钥信息，并且可以使用安装在计算机上的密钥信息执行加密的程序，从而实现本发明。

不但可以通过由计算机执行读出程序代码，而且还可以通过根据程序的指令由运行在计算机上的OS等执行一些或全部的实际处理操作来实现前述实施例的功能。

此外，可以在从记录介质读出的程序被写入扩展板或扩展单元之后，通过由安装在插入或连接到计算机的功能扩展板或功能扩展单元中的CPU等执行一些或所有的实际处理过程而实现前述实施例的功能。

在此描述的仅是对本发明原理的说明。例如，作为操作本发明的最佳模式实现的上述功能仅出于说明目的。因此，在不脱离本发明的范围和精神的情况下可由本领域的技术人员实现其他排列和方法。

Claims

1.一种用于从图像检测消失点的方法，包括：

用于通过在图像中设置一些采样点并将每个采样点与小片的模板尺寸相关联以便适合于快速傅立叶变换而将图像划分成小片的划分步骤，其中，每个小片以一个采样点为中心；

用于检测每片的局部方向的第一检测步骤，其中，用于检测每片的局部方向的第一检测步骤包括：

用于以频谱滤波器预处理小片的预处理步骤；

用于通过快速傅立叶变换计算小片的频谱的第二计算步骤；

用于自适应地删减在第二计算步骤中获得的频谱的第二删减步骤；和

用于通过独立分量分析估计局部方向的估计步骤；

用于根据在第一检测步骤中检测出的局部方向组合方向线束的直线的组合步骤，其中，由采样点和片的局部方向构成所述方向线束，通过各片的局部方向和相关的采样点为每片画出两条直线，以及各个片的这些直线被表示为r＝xcosθ+ysinθ；和

用于使用如下等式根据在所述组合步骤中组合的方向线束的直线计算至少一个消失点的第一计算步骤：

[\begin{matrix} x_{0} \\ y_{0} \end{matrix}] = \frac{- 1}{\underset{i, j}{Σ} \sin^{2} (θ_{i} - θ_{j})} [\begin{matrix} \underset{i, j}{Σ} \sin (θ_{i} - θ_{j}) (r_{i} {\sin θ}_{j} - r_{j} \sin θ_{i}) \\ \underset{i, j}{Σ} \sin (θ_{i} - θ_{j}) (r_{j} \cos θ_{i} - r_{i} {\cos θ}_{j}) \end{matrix}]

其中，消失点的坐标是(x₀，y₀)，以及(r_i，θ_i)和(r_j，θ_j)是通过(x₀，y₀)的方向线束中的任意两条直线。

2.按照权利要求1的用于从图像检测消失点的方法，进一步包括用于从组合步骤中组合的每束方向线束的直线中删减噪声线的第一删减步骤，并且其中第一计算步骤根据其中噪声线被删减了的方向线束来计算消失点。

3.按照权利要求1或2的用于从图像检测消失点的方法，其中用于检测每片的局部方向的第一检测步骤基于局部频谱分析。

4.按照权利要求1的用于从图像检测消失点的方法，其中预处理步骤中使用的频谱滤波器是汉宁滤波器。

5.按照权利要求1的用于从图像检测消失点的方法，其中在第二删减步骤中，通过删除直流分量并且只保留前n个最大的频谱分量删减频谱，n等于模板尺寸。

6.一种用于图像中的透视校正的方法，包括步骤：

根据如权利要求1中所述的方法计算出的消失点，对文档图像执行透视校正。

7.一种用于从图像检测消失点的装置，包括：

用于通过在图像中设置一些采样点并将每个采样点与小片的模板尺寸相关联以便适合于快速傅立叶变换而将图像划分为小片的划分装置，其中，每个小片以一个采样点为中心；

用于检测每片的局部方向的第一检测装置，其中，用于检测每片的局部方向的第一检测装置包括：

用于以频谱滤波器预处理小片的预处理装置；

用于通过快速傅立叶变换计算小片的频谱的第二计算装置；

用于自适应地删减在第二计算步骤中获得的频谱的第二删减装置；和

用于通过独立分量分析估计局部方向的估计装置；

用于根据在第一检测装置中检测出的局部方向组合方向线束的直线的组合装置，其中，由采样点和片的局部方向构成所述方向线束，通过各片的局部方向和相关的采样点为每片画出两条直线，以及各个片的这些直线被表示为r＝xcosθ+ysinθ；和

用于使用如下等式根据所述组合装置组合的方向线束的直线计算至少一个消失点的第一计算装置：

[\begin{matrix} x_{0} \\ y_{0} \end{matrix}] = \frac{- 1}{\underset{i, j}{Σ} \sin^{2} (θ_{i} - θ_{j})} [\begin{matrix} \underset{i, j}{Σ} \sin (θ_{i} - θ_{j}) (r_{i} {\sin θ}_{j} - r_{j} \sin θ_{i}) \\ \underset{i, j}{Σ} \sin (θ_{i} - θ_{j}) (r_{j} \cos θ_{i} - r_{i} {\cos θ}_{j}) \end{matrix}]