CN102208025A

CN102208025A - 一种文本图像几何畸变的矫正方法

Info

Publication number: CN102208025A
Application number: CN 201110140399
Authority: CN
Inventors: 孟高峰; 潘春洪; 向世明; 段江永
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-05-27
Filing date: 2011-05-27
Publication date: 2011-10-05
Anticipated expiration: 2031-05-27
Also published as: CN102208025B

Abstract

本发明提供一种文本图像几何畸变的矫正方法包括提取文本图像中水平方向的文本行并利用B样条曲线对其进行拟合，得到文本行曲线；利用文本行曲线的切线会聚对称性估计柱面直母线的灭点、文本行切线会聚线及相机的焦距参数；对拟合的文本行曲线，采用交比插值构造等距网格的纬线；利用文本行曲线的类透视投影变换，估计柱面的准线，构造等距网格的经线；利用图像顶端和底端的文本行曲线，估计得到等距网格的长宽比；通过基于网格的形变技术，将每一个等距网格的网孔映射为一正方形网格，完成文本图像几何畸变的矫正。本发明解决现有技术无法同时矫正透视失真、非线性形变失真以及二者的复合失真等难题，可实现相机拍摄文本图像几何畸变的完全矫正。

Description

一种文本图像几何畸变的矫正方法

技术领域

本发明属于数字图像处理和计算机视觉等技术领域，特别涉及一种相机拍摄的文本图像的透视失真和几何畸变的完全矫正技术。

背景技术

与平板式扫描仪相比，数码相机在文本图像获取上具有许多独特的优点，如携带方便、反应速度快、可从任意角度拍摄文档等。由于这些特点，数码相机在数字图书馆的构建、文献典籍的数字化以及文本识别等领域中获得了广泛应用。然而，由于相机的透视成像原理，拍摄的文本图像中常常存在透视失真等几何形变。此外，在用相机拍摄书籍页面时，由于页面变形，图像也会产生几何失真。这两种失真常常复合在一起，为后续的文本图像处理，如版面分割、字符识别等带来了诸多困难。

为矫正相机拍摄文本图像中的几何失真，人们提出了多种解决方法。这些方法可分为基于局部或全局的图像几何变形技术、基于图像3D深度数据的技术、基于Shape-from-X的技术以及页面曲面模型化技术等。此外，还有利用从多个视点拍摄的多幅图像来矫正图像的几何失真的技术。下面，我们对这些技术进行一个简单的介绍。

图像几何变形技术可分为基于局部的和基于全局的图像几何变形技术。前者首先对文本图像中的单词进行分割，然后将同一文本行上倾斜的单词逐个旋转至一条直线上，来矫正整条文本行的扭曲变形。后者则试图构建一个全局的图像几何变形函数，利用该函数对图像进行全局变换来矫正图像中的几何畸变。基于局部变换的方法由于变换的局部性，仅能对文本区域的形变进行矫正，而无法矫正非文本区域，如插图、表格等的变形。基于全局变换的方法则能矫正这些非文本区域的变形。该类方法的关键在于如何构造合适的全局形变函数。然而，由于页面曲面3D信息的缺失，基于全局变换的矫正技术无法完全矫正图像中存在的几何畸变失真。这类方法广泛存在限制条件苛刻、矫正残留误差大、仅能适用于特定情形的几何失真等缺点。

基于图像3D深度数据的矫正技术首先利用3D扫描仪获取文档页面曲面的3D深度信息，基于这些信息重构页面曲面的3D形状，最后通过一个保角映射和纹理映射将扭曲的图像映射至平面上，来矫正图像的几何扭曲。这类方法通常对图像的几何形变类型不加限制，能够适用于图像中多种类型的几何畸变的矫正。然而，由于额外需要价格昂贵的3D扫描仪辅助图像矫正，这类方法在实际中并不常用。并且，由于深度数据中几何拓扑关系的缺失，3D页面形状的重构还存在计算量大、数值不稳定等缺点，这些进一步限制的这类方法在实际中的应用。

另一种获取页面3D形状信息的方法是借助Shape-from-X技术，其中X代表图像的某种视觉线索，如目标的阴影、轮廓、纹理等。在现有技术中，页面的阴影曲面常用于估计页面的3D形状。这类方法通过分析页面阴影与页面形状之间的约束关系，得到二者所满足的约束方程，求解该方程得到页面的3D曲面。最后利用该曲面完成图像几何畸变的矫正。该技术对页面阴影要求较高，通常需要特定方向、结构的光照。然而，在实际环境下，由于环境光等其他光源的存在，这一要求难于满足。

其他图像视觉线索也常用于文档页面曲面的估计，如文本行，文本矩形块等。使用这些线索估计页面曲面时，往往还需额外添加某种约束，如要求预先知道矫正前后文本行之间的对应关系等。这些条件在实际应用中常常难于满足。

页面曲面模型化技术首先假设页面畸变为某特定类型的曲面，如柱面或可展曲面等，利用该假设来约束页面曲面的估计。柱面假设是一种最常用的页面形状假设。为估计柱面模型的参数，该类技术还进一步限定相机拍摄的视角、距离、姿态等，且还需预先知道文档页面的尺寸等额外物理信息。这些苛刻条件为实际应用造成了很多不便。

可展曲面假设是另一种常用的页面形状假设。由于文档页面总可以展开至平面上，因此，与柱面假设相比，该假设更具一般性。注意到可展曲面可由逐条平面片很好逼近，有研究者最新提出采用分片薄板样条曲面来近似可展曲面，用于图像几何畸变的矫正。该技术利用目前成熟的平面透视失真矫正技术，对薄板样条曲面逐片矫正，最后对这些矫正后的结果拼接完成图像的矫正。然而，由于无可避免的估计误差，拼接后的图像中常存在裂缝、重叠等缺陷。这些缺陷大大影响了图像矫正后的视觉效果。此外，由于透视失真与非线性几何形变失真的复合，该技术无法彻底矫正图像中存在的几何畸变，存在矫正残留误差大、算法复杂等缺点。

综上所述，现有的文本图像几何畸变矫正技术远未成熟，还无法完全同时矫正图像中存在的透视失真、非线性几何形变失真以及二者的复合等多种类型的失真，仅能针对特定情形，在非常苛刻的前提条件下进行畸变矫正。如何在宽松的前提条件下，完全矫正相机拍摄的文本图像中存在的多种类型的几何畸变，仍然是文本图像处理领域中一个颇具挑战性的难题。

发明内容

本发明的目的旨在宽松的前提条件下，矫正相机拍摄的文本图像中存在的多种类型的几何畸变，为此提供一种文本图像几何畸变矫正方法。

为达成所述目的，本发明提供一种文本图像几何畸变矫正方法的步骤包括：

步骤S1：提取文本图像中水平方向的文本行，并利用B样条曲线对文本图像中水平方向的文本行进行拟合，得到文本行曲线；

步骤S2：利用文本行曲线的切线会聚对称性估计柱面直母线的灭点、文本行切线会聚线及相机的焦距；

步骤S3：对拟合的文本行曲线，采用交比插值构造等距网格的纬线；

步骤S4：利用文本行曲线的类透视投影变换，估计柱面的准线，从而构造等距网格的经线；

步骤S5：利用图像顶端和底端的文本行曲线，估计得到等距网格的长宽比；

步骤S6：通过基于网格的形变技术，将每一个等距网格的网孔映射为一正方形网格，完成文本图像几何畸变的矫正。

本发明的有益效果：本发明的方法针对相机拍摄的文本图像中存在的几何畸变，可实现图像中包括透视失真、非线性形变失真及二者的复合失真等多种几何畸变的完全矫正。1)该方法在非常宽松的假设条件下实现图像几何畸变的矫正，完全可满足真实环境下的各种要求；2)该方法通过分析相机成像机理，及其与页面曲面之间的几何约束关系，构造一个等距图像网格来矫正几何畸变，具有思想直观，理论完善，易于编程等特点，有望实现图像几何畸变的实时矫正；3)该方法仅依赖于图像信息，无需辅助设备和额外引入其他页面物理信息，可实现相机拍摄的文本图像中多种类型几何畸变，包括透视畸变、非线性几何畸变及二者复合畸变等的完全矫正。本发明突破了现有技术矫正残存误差大、算法复杂、适用性差、无法同时矫正透视失真、非线性形变失真以及二者的复合失真等难题，实现了相机拍摄文本图像几何畸变的完全矫正。该方法可应用于数码相机、扫描仪、复印机等多种文本图像采集设备的几何畸变矫正，在书籍资料数字化、数字图书馆构建、珍贵历史文献典籍保护等领域具有广阔的应用前景。

附图说明

图1是本发明方法的总体流程图。

图2是文本行曲线的切线会聚对称性示意图。

图3a和图3b是文本行曲线交比插值示意图。

图4a和图4b是网格长宽比的计算示意图。

图5a至图5c是模拟图像的几何畸变矫正效果图。

图6a至图6c是相机真实拍摄的文本图像的几何畸变矫正效果图。

具体实施方式

下面结合附图，详细给出该技术所涉及的各个细节问题的说明。

图1中给出了本发明技术方案的整体流程图。本发明针对相机拍摄的文本图像中存在的几何畸变，可实现图像中包括透视失真、非线性形变失真及二者的复合失真等多种几何畸变的完全矫正。该方法同时还提供了一种崭新的曲面形状估计技术，可从透视投影变换的曲面测地线中恢复曲面的形状。

本发明首先假设文档页面的畸变曲面为一般柱面，并假设水平文本行曲线垂直于柱面的直母线。这一假设在实际中非常容易满足。此外，还假设相机的主点(Principal Point)位于图像中心处，该假设对一般数码相机均可满足。在这些假设下，通过构造一个等距网格来矫正图像中的几何畸变，主要步骤包括：

步骤S1：文本行的提取与B样条曲线拟合。对文本图像进行分割，提取文本行，并利用B样条曲线对文本行进行拟合。若文档边界线未受遮挡，也可提取文档边界线用于几何畸变矫正；

步骤S2：柱面模型的参数估计。在所述假设下，文本行曲线经透视投影后满足线会聚对称性。利用该性质，估计模型的各个参数，包括柱面直母线的灭点、切线的会聚线及相机的焦距；

步骤S3：网格纬线的构造。对拟合的文本行曲线，利用交比插值，构造等距网格的纬线；

步骤S4：柱面准线的估计与网格经线构造。利用文本行曲线的类透视投影变换，估计柱面的准线，从而构造等距网格的经线；

步骤S5：网格长宽比的估计。利用图像顶端和底端的文本行曲线，估计得到等距网格的长宽比；

步骤S6：网格形变矫正。得到图像的等距网格后，图像中的几何畸变可通过网格变形技术得以矫正。该技术借助于一个形变函数，将每一个等距网格的网孔映射为一正方形网格。

柱面模型参数的估计：在本发明所述假设下，可以证明，柱面上的文本行曲线，经透视变换后满足线会聚对称性，即对于同一直母线上的点，其对应的文本行切线经透视变换后，相交于同一点，而不同直母线对应的切线的交点位于同一条直线上，如附图2示出文本行曲线的切线会聚对称性，其中C₀(t)和C₁(t)分别为两条拟合的文本行曲线，t为曲线的参数坐标，L为切线会聚线，v为柱面直母线的灭点。

记柱面直母线灭点的空间坐标为V＝(v_x，v_y，f)，其中v_x和v_y分别为灭点在像平面上的x和y坐标，f为相机焦距，l_ij为一组对应的文本行切线，i＝1，…，n；j＝1，…，m，其中n为文本行曲线的条数，m为直母线的条数。该组切线用其对应的齐次坐标表示。另记P_j为该组切线交点的齐次坐标，

为P_j和l_ij的夹角，φ_j为V和P_j的夹角。可定义如下优化问题来估计柱面直母线灭点、文本行切线会聚线及相机焦距参数：

等距网格的交比插值：文本行曲线的交比插值用于构造等距网格的纬线。记p₀和p₁为两条文本行曲线上的对应点，于是，灭点v可用这两点表示为v＝(1-λ)p₀+λp₁，等距插值点p_τ可表示为p_τ＝(1-τ)p₀+τp₁，其中参数τ可由下式计算：

τ = \frac{μλ}{μ + λ - 1},

其中，μ为p_τ对应的空间点P_μ＝(1-μ)P₀+μP₁的坐标参数，P₀和P₁分别为p₀和p₁对应的空间点，λ为灭点v＝(1-λ)p₀+λp₁的坐标参数。

附图3a和图3b给出了交比插值的过程示意图，其中图3a为像平面上等距插值点的计算示意图，O为相机的光心，∏为像平面。图3b为利用交比插值计算一条纬线的示意图，C₀(t)和C₁(t)分别为两条拟合的文本行曲线，C_τ(t)为利用交比插值计算得到的一条纬线，其中t为曲线参数。

柱面准线的估计：当文本行曲线距离相机足够远时，其类透视投影是透视投影的一个很好逼近。然而，当相机近距离拍摄文本图像时，图像上并不存在这样的文本行。为克服这一难题，可通过文本行的交比插值构造一条远距离文本行曲线，然后利用类透视投影变换，从中估计得到柱面的准线。

类透视投影是一个线性变换，对于二维形状，这一变换对应于一个仿射变换，记该仿射变换为A。另记C(t)为交比插值得到的一条文本行曲线，其对应的柱面空间准线记为D(t)。该准线可通过如下变换得到：

D(t)≈κA^-1C(t)，

其中κ为一尺度伸缩因子，与准线至相机的距离有关。采用下式计算类透视投影的仿射变换矩阵A：

A = [\begin{matrix} 1 & - \frac{t_{1}}{t_{3}} \sin θ \\ 0 & \cos θ - \frac{t_{2}}{t_{3}} \sin θ \end{matrix}],

其中θ为像平面法向与柱面直母线的夹角，可由下式计算得到：

θ = \cos^{- 1} (\frac{f}{\sqrt{v_{x}^{2} + v_{y}^{2} + f^{2}}}),

其中f为相机焦距，(t₁，t₂，t₃)^T为类透视投影变换选取的参考方向，t₁、t₂、t₃分别为该参考方向的x、y、z分量。该参考方向通过选择C(t)的重心坐标来构造。

网格长宽比的估计：为实现图像几何畸变的完全矫正，还需估计网格的长宽比参数。附图4a和图4b中给出了网格长宽比参数的计算示意图，其中图4a为图像上网格高度和准线宽度的计算，图4b为利用正弦定理计算网格真实的高度。如附图4a所示，图中C₀(t)和C₁(t)分别为等距网格的底端和顶端纬线，L为切线会聚线。分别过C₀(t)和C₁(t)的左端点作直线L₀和L₁平行于L。用直线连结灭点v与相机主点O，并延长交L₀和L₁于p₀和p₁点，交切线会聚线L于F。再用直线连结F与C₀(t)的右端点，交L₀于点q₀。如附图4b所示，网格的实际高度H可由下式计算：

H = \frac{κ \cos α}{\cos (α + β)} h_{img},

其中κ为尺度伸缩因子，h_img为p₀和p₁点之间的距离，β为像平面法向与柱面直母线夹角θ的余角，α为光轴和p₁点与光心连线的夹角。α可直接由下式从图像上计算得到：

α = \tan^{- 1} (\frac{d}{f}),

其中d为相机主点(Principal Point)O至p₁点的距离，f为相机焦距。

记l_img为等距网格底端曲线C₀(t)的左端点到q₀的距离，l′_img为通过交比插值得到的曲线C(t)所对应准线D(t)的x方向宽度，w′_img为D(t)的曲线长度，等距网格的实际宽度可由下式计算：

W = κ w_{img}^{'} \cdot \frac{l_{img}}{l_{img}^{'}},

其中κ为尺度伸缩因子。于是，等距网格的长宽比可通过下式得到：

r = \frac{H}{W} = \frac{h_{img}}{l_{img}} \cdot \frac{l_{img}^{'}}{w_{img}^{'}} \cdot \frac{\cos α}{\cos (α + β)} .

图像几何畸变矫正结果：为验证本发明所述技术，我们利用模拟数据和真实拍摄的文本图像进行了实验验证。模拟图像的几何畸变矫正效果图如附图5a至图5c所示，其中图5a为含几何畸变的文本图像，包括透视失真，非线性几何失真及二者的复合失真。由于这些失真的存在，文本图像中的文本行显著扭曲，文字字体大小不均。图5b为利用本发明构造的图像等距网格，图5c为图像几何畸变矫正后效果图。可以看出，本发明所述方法可有效的矫正图像中产生的各种几何畸变。

真实实验如附图6a至图6c所示是相机真实拍摄的文本图像的几何畸变矫正效果图，其中图6a为相机拍摄的真实文本图像。我们利用自适应阈值对图像进行二值化，以消除图像中的光照不均。可以看出，图像中存在明显的透视失真和几何畸变。图6b为本发明所述技术矫正后的图像效果。为方便比较，图6c中给出了该文档的扫描图像。可以看出，本发明所述技术可矫正扭曲的文本行，恢复均一的文字字体大小，矫正后图像和扫描图像在视觉上非常相似。这证明了该技术的有效性。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所结露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内。

Claims

1.一种文本图像几何畸变的矫正方法，包括步骤：

2.根据权利要求1所述的文本图像几何畸变的矫正方法，其特征在于，采用如下方法计算直母线投影线的灭点、文本行切线会聚线及相机焦距：

式中：v为灭点，f为相机焦距，n为文本行曲线的条数，

为P_j和l_ij的夹角，φ_j为V和P_j的夹角，l_ij为一组对应的文本行切线，m为切线的组数，P_j为该组切线交点的齐次坐标，i＝1，…，n；j＝1，…，m。

3.根据权利要求1所述的文本图像几何畸变的矫正方法，其特征在于，采用下式计算交比插值参数τ：

τ = \frac{μλ}{μ + λ - 1},

式中：τ为等距插值点p_τ＝(1-τ)p₀+τp₁的坐标参数，p₀和p₁分别为两条文本行曲线上的对应点，μ为p_τ对应的空间点P_μ＝(1-μ)P₀+μP₁的坐标参数，P₀和P₁分别为p₀和p₁对应的空间点，λ为灭点v＝(1-λ)p₀+λp₁的坐标参数。

4.根据权利要求1所述的文本图像几何畸变的矫正方法，其特征在于，采用下式计算类透视投影的仿射矩阵A：

A = [\begin{matrix} 1 & - \frac{t_{1}}{t_{3}} \sin θ \\ 0 & \cos θ - \frac{t_{2}}{t_{3}} \sin θ \end{matrix}],

式中：θ为像平面法向与柱面直母线的夹角，(t₁，t₂，t₃)^T为类透视投影变换选取的参考方向，t₁、t₂、t₃分别为该参考方向的x、y、z分量。

5.根据权利要求1所述的文本图像几何畸变的矫正方法，其特征在于，采用下式计算网格的长宽比r：

r = \frac{h_{img}}{l_{img}} \cdot \frac{l_{img}^{'}}{w_{img}^{'}} \cdot \frac{\cos α}{\cos (α + β)},

式中：h_img为p₀点和p₁点之间的距离，l_img为等距网格底端曲线C₀(t)的左端点到q₀点的距离，l′_img为交比插值得到的曲线C(t)所对应的准线D(t)的x方向宽度，w′_img为D(t)的曲线长度，α为光轴和p₁点与光心连线的夹角，β为像平面法向与柱面直母线夹角的余角。