CN106778739B

CN106778739B - 一种曲面化变形文本页面图像矫正方法

Info

Publication number: CN106778739B
Application number: CN201611093282.XA
Authority: CN
Inventors: 康来; 魏迎梅; 白亮; 郭金林; 老松杨; 谢毓湘
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2019-06-14
Anticipated expiration: 2036-12-02
Also published as: CN106778739A

Abstract

本发明属于图像信息处理领域，涉及一种曲面化变形文本页面图像矫正方法。该方法具体包括步骤：(S1)提取文本联通像素区域及其多边形凸包投影信息；(S2)计算每个多边形凸包的质心所在位置字符的水平方向；(S3)计算每个多边形凸包的质心所在位置字符的垂直方向；(S4)根据步骤(S2)和步骤(S3)中得到的水平方向和垂直方向，构建文本页面的二维图像变形网格；(S5)重建文本页面的三维几何结构；(S6)对原始输入的文本页面图像进行矫正，获得矫正的文本页面图像。本发明方法仅需要利用普通照相机拍摄一幅图像，且能够处理满足局部平滑特性的一般曲面化文本页面，并能同时消除文本页面形状变形和成像透视变形，更加灵活、实用。

Description

一种曲面化变形文本页面图像矫正方法

技术领域

本发明属于图像信息处理领域，涉及一种曲面化变形文本页面图像矫正方法。

背景技术

传统文档数字化系统通常采用平板扫描仪获取文本页面的数字图像，然后通过光学字符识别(optical character recognition,OCR)技术提取图像中的文本信息。作为文档数字化的重要步骤，OCR技术在学术界得以广泛研究。对于通过扫描方式获得的文本页面图像而言，利用现有的OCR技术可以获得极高的识别精度。尽管上述数字化处理过程可以获得很好的效果，许多研究人员试图利用数码相机替换平板扫描仪。这主要是因为数码相机与平板扫描仪相比具有许多优势，比如：数码相机易于携带、拍照速度快、拍照角度灵活等，且利用数码相机拍摄图像是一种被动式、非接触式方法，因此对于易碎文档(比如：历史文物文档)而言数码相机更为合适。然而，由于相机拍摄的文档图像通常包含严重变形，若直接利用OCR技术进行处理，则识别精度将受到较大的影响。实际应用中，文本页面通常呈现曲面化变形形式，这种文本页面图像中会引入两种类型的变形：一种是曲面化文本页面的几何变形，另一种是成像过程中引入的透视投影变形。因此，对于采用数码相机捕获图像的文档数字化系统而言，图像变形矫正十分必要。

现有文本页面图像变形消除方法大致可以划分为两类。第一类方法利用非线性图像变换实现变形文本页面图像矫正。这类方法首先将文字或者文本行分割出来，然后分别对文字或者文本行进行矫正。由于上述方法采用局部图像变换，因此不能处理非文本区域。为了获得具有一致性的结果，一些学者利用全局图像变换实现图像矫正。首先创建图像网格，然后通过网格正则化来估计全局图像变换实现图像变形消除。尽管利用非线性图像变换实现变形文本页面图像矫正可以获得较好的OCR效果，但由于缺少页面的三维形状信息，矫正后的文本页面图像中仍然存在明显是视觉变形。

另一类方法借助页面的三维形状信息对图像实施矫正。一旦获得了文本页面的三维形状信息，从理论上来说就能够实现任何类型的页面重投影，从而实现图像的精确矫正。计算机视觉领域的许多三维重建方法都被用于文本页面图像矫正。一些学者利用激光扫描仪(M.Pilu,“Deskewing perspectively distorted documents:An approach based onperceptual organization,”in“HPWhite Paper,”2001)、结构光(M.S.Brown andW.B.Seales,“Image restoration of arbitrarily warped documents,”IEEETransactions on Pattern Analysis and Machine Intelligence 26(10):1295-1306,2004)、立体相机(A.Yamashita,A.Kawarago,T.Kaneko,and K.T.Miura,“Shapereconstruction and image restoration for non-flat surfaces of documents witha stereo vision system,”in“Proceedings of the 17th International Conferenceon Pattern Recognition,”482-485,2004)等特殊设备来获取文本页面的三维形状，然后基于所获取的页面三维模型实现变形图像恢复。尽管利用上述附加的、已精确标定的硬件可以获得较好的效果，但这些系统成本较高、外形尺寸较大，因此在实际使用中受到一些限制。

近年来，一些学者尝试利用普通照相机拍摄文本页面，然后通过基于图像的方法获得文本页面的三维结构，进一步实现文本页面图像的矫正。Pal等(K.Pal,M.Terras,andT.Weyrich,“Interactive exploration and flattening of deformed historicaldocuments,”in “Proceedings of Eurographics 2013,”327-334,2013)提出一种针对历史文档的交互式浏览和矫正系统。该系统利用基于图像的多视图三维重建方法获取文档的三维模型，然后根据三维模型生成新的无变形文档图像。由于上述方法需要利用多视图几何实现三维重建，因此需要从不同角度拍摄多张图像，对实际应用带来不便。

与上述方法重建一般三维形状的方法不同，一些学者通过对文本页面的形状作出特定假设，以此简化图像矫正过程。Kim等(B.S.Kim,H.I.Koo,and N.I.Cho,“Documentdewarping via text-line based optimization,”Pattern Recognition 48(11):3600-3614,2015)假设文本页面是一般圆柱形曲面(general cylindrical surface,GCS)，该方法可以同时消除几何变形和透视投影变形，而且只需拍摄一幅图像。然而，由于它采用了一般圆柱形曲面，因此并不能应用于一般曲面化变形文本页面图像的矫正。

发明内容

针对现有技术不足，本发明提出一种曲面化变形文本页面图像矫正方法，从单幅局部平滑的曲面化文本页面图像中计算文本页面的三维几何形状信息，在此基础上对文本页面图像进行矫正，以消除文本页面图像中由于三维曲面和透视投影引入的图像变形，具体技术方案如下。

一种曲面化变形文本页面图像矫正方法，包括以下步骤：

(S1)提取文本联通像素区域及其多边形凸包投影信息：将原始输入的变形文本页面图像转换为二值图像，提取二值图像中文本字符对应的联通像素区域及其多边形凸包信息；确定N_θ条投影直线，针对每一个多边形凸包，计算距离该多边形凸包质心最近的N_c个多边形凸包在各条投影直线上的投影线段，N_c，N_θ为整数；

(S2)计算每个多边形凸包的质心所在位置字符的水平方向，即图像空间中该字符水平走向与图像纵向坐标轴之间的夹角。其中，图像空间指的是图像所在二维平面，图像空间坐标原点位于图像左上角，横向坐标轴方向为由左向右方向，纵向坐标轴方向为由上向下方向。

(S3)计算每个多边形凸包的质心所在位置字符的垂直方向，即图像空间中该字符垂直走向与图像纵坐标轴之间的夹角；

(S4)根据步骤(S2)和(S3)中得到的水平方向和垂直方向，构建文本页面的二维图像变形网格；

(S5)重建文本页面的三维几何结构；

(S6)对原始输入的变形文本页面图像进行矫正，获得矫正的文本页面图像。

进一步地，所述步骤(S1)的具体过程为：

(S11)将输入的文本页面图像转换为二值图像，记为{B_p}，二值图像中任意像素p的取值B_p采用如下公式计算：

其中，C_p和分别表示原始输入的文本图像及其高斯滤波后的图像中像素p的取值，σ表示高斯平滑窗口大小，取值范围是6～12个像素，λ₁、λ₂为常数参数；λ₁的取值范围是0.7～0.9，λ₂的取值范围是20～30。

(S12)采用基于8-联通邻域模式搜索二值图像{B_p}中取值为1的所有像素组成的联通像素区域，剔除像素数量多于1000或者少于10的联通区域；

计算各联通像素区域的多边形凸包顶点坐标及其质心坐标；对于任意多边形凸包CH，其质心c＝(x,y)^T的计算公式如下：

其中，N_v是给定多边形凸包CH所包含的顶点数量，x_i和y_i分别为多边形凸包顶点v_i(i＝{1,2,…,N_v})在图像空间中的横坐标和纵坐标；T表示转置符号。

(S13)确定投影直线束k＝{1,2,…,N_θ}，整数N_θ的取值范围是181～361，其中投影直线表示与图像纵向坐标轴之间夹角为θ_k的直线，θ_k的计算公式是：

(S14)对于每个多边形凸包CH，计算距离其质心c最近的N_c个多边形凸包在投影直线上的投影线段；整数N_c取的取值范围是32～64，对于变形严重的文档，可降低N_c的取值。记为距离c最近的N_c个多边形凸包的下标集合，计算多边形凸包在各投影直线(k＝{1,2,…,N_θ})上的投影线段起、止点的横坐标，记为x_a(CH_i,θ_k)和x_b(CH_i,θ_k)。

进一步地，所述步骤(S2)的具体过程为：

(S21)构建距离多边形凸包质心c最近的N_c个多边形凸包在投影直线(k＝{1,2,…,N_θ})上的投影轮廓函数f_k(·)，f_k(x)的计算公式如下：

其中，

(S22)计算距离c最近的N_c个多边形凸包在投影直线(k＝{1,2,…,N_θ})上的离散投影代价函数E₁(k)，计算公式是：

其中，

以及

j取整数，范围为1,2，…，N_s。表示向下取整数，表示向上取整数。

(S23)估算质心c所在位置字符的水平方向，利用5阶多项式拟合方法根据各投影直线的离散投影代价函数E₁(k)(k＝1,2,…,N_θ)拟合关于k的连续投影代价曲线F₁(k)，函数拟合考察自变量的取值范围取是：

其中，argmin表示使目标函数取最小值时的变量值。然后在曲线F₁(k)上搜索最小化函数取值的k，并按照如下公式计算c所在位置字符的最优水平方向：

进一步地，所述步骤(S3)具体为：

(S31)计算距离多边形凸包质心c最近的N_c个多边形凸包在投影直线(k＝1,2,…,N_θ)上的投影能量E₂(k)，计算公式是：

其中，是多边形凸包CH_i的外接圆直径，权重参数ω_i的计算公式如下：

其中，||·||₂表示向量的欧几里德范数，c表示任意指定的一个多边形凸包的质心，c_i表示第i个多边形凸包的质心；

(S32)估算质心c所在位置字符的垂直方向，利用5阶多项式拟合方法根据各投影直线的离散投影代价E₂(k)，(k＝1,2,…,N_θ)拟合关于k的连续投影代价曲线F₂(k)，函数拟合考察自变量的取值范围取是：

然后在曲线F₂(k)上搜索最小化函数取值的k，并按照如下公式计算c所在位置字符的最优垂直方向：

进一步地，所述步骤(S4)具体步骤为：

(S41)对字符联通区域多边形凸包质心位置上的字符水平方向、垂直方向数据进行预处理。检查每个多边形凸包质心位置上的字符方向与其周围邻域位置上的字符方向均值的一致性，如果该多边形凸包质心位置上的字符方向(即当前所检查的多边形凸包质心位置)与距离该质心最近的个邻域质心位置上所有字符方向的平均值的差异高于Δθ(Δθ的取值范围是π/6～π/5)，则采用邻域均值替代该位置上的字符方向。

(S42)构建文本方向函数，利用双线性插值方法，根据多边形凸包质心位置上的字符水平方向数据拟合相对于图像坐标x和y的文本水平方向函数O_h(x,y)；利用双线性插值方法，根据多边形凸包质心位置上的字符垂直方向数据拟合相对于图像坐标x和y的文本垂直方向函数O_v(x,y)；

(S43)构建二维图像变形网格，包括以下三个步骤：

(S431)生成文本水平流线，分别以(1,mΔv)^T为起始点，根据函数O_h(x,y)计算条文本水平流线，其中H表示原始输入图像(即原始输入的变形文本页面图像)纵向像素数量，Δv为纵向采样间隔像素数量，取值范围是10～20。

(S432)生成文本垂直流线，分别以(nΔh,1)^T为起始点，根据函数O_v(x,y)计算条文本垂直流线，其中W表示原始输入图像横向像素数量，Δh为横向采样间隔像素数量，取值范围是20～40；

其中，文本水平(或垂直)流线生成的具体方法是：首先，确定起始点p₀；然后，沿文本水平(或者垂直)走向(文本水平走向根据函数O_h(x,y)计算(或者文本垂直走向根据O_v(x,y)计算))，从p₀向前移动Δp个像素至位置p₁；然后，继续从p₁沿文本走向向前移动Δp个像素至位置p₂；以此类推直到移动至图像边界以外，依次连接各关键点p₀、p₁、p₂、…，形成的折线即为一条流线；其中，Δp的取值范围是4～8个像素；

(S433)构建二维图像变形网格，根据水平方向、垂直方向两组流线相交的结果构建二维图像变形网格，记所形成的二维图像变形网格纵向和横向单元格数量分别为M和N。

进一步地，所述步骤(S5)具体过程为：

(S51)建立单元格索引和网格顶点索引，将单元格、网格顶点按照从左至右、从上至下的顺序编号；记二维图像变形网格中第q(q＝{1,2,…,M×N})个二维图像单元格Q_q的左上角、左下角、右下角、右上角顶点索引号分别为g_ul(q)、g_ll(q)、g_lr(q)、g_ur(q)。

(S52)通过求解如下优化问题计算获得变形网格所有顶点的三维空间坐标的最优估计值

其中，(x_t,y_t)^T和V_t＝(X_t,Y_t,Z_t)^T分别为第t(t＝{1,2,…,(M+1)×(N+1)})个网格顶点对应的二维图像坐标和三维空间坐标，α为参数，α的取值范围是0.4～0.6。(x_t,y_t)^T是已知量，是待估计量，字母右上角加*表示最优估计值。

进一步地，所述步骤(S6)具体步骤为：

(S61)对图像单元格进行正射矫正，利用图像透视变换技术将二维单元格Q_q(q＝{1,2,…,M×N})对应的图像区域矫正为宽为a_q、高为b_q的矩形图像块Q_q′，其中a_q、b_q的计算公式是：

(S62)根据Q_q的邻接关系将所有已矫正的单元格Q_q′拼合形成最终矫正图像。

采用本发明的有益效果：已有基于三维形状恢复的文本页面变形矫正方法要么借助附加的、已标定硬件实现文档页面的三维重建，要么需要利用多张文本页面图像恢复文档页面的三维形状，或者只能处理满足一般圆柱形曲面、进化曲面等比较严格的形状约束的文档页面。本发明方法仅需要利用普通照相机拍摄一幅图像，且能够处理满足局部平滑特性的一般曲面化文本页面，并能同时消除文本页面形状变形和成像透视变形，因此本发明方法更加灵活、实用。

附图说明

图1为本发明一种曲面化变形文本页面图像矫正方法的流程图；

图2为提取文本联通像素区域及其多边形凸包投影信息的流程图；

图3为投影轮廓函数构建示意图；

图4为离散投影代价函数及连续投影代价曲线示意图；

图5为单元格、顶点索引示意图；

图6为本发明实施例的实验结果图。

具体实施方式

下面，结合附图和具体实施例对本发明作进一步说明。

如图1所示，本发明提供了一种曲面化变形文本页面图像矫正方法，包括如下步骤：

步骤一，提取文本联通像素区域及其多边形凸包投影信息。文本联通像素区域及其多边形凸包投影信息提取的流程如图2所示。

首先，将原始输入的变形文本页面图像转换为二值图像{B_p}。二值图像中任意像素p的取值B_p采用如下公式计算：

其中，C_p和分别表示原始输入的文本页面图像及其高斯滤波后图像中像素p的取值，高斯平滑窗口σ取值为10个像素，参数λ₁＝0.8，λ₂＝25。

其次，提取文本字符对应的联通像素区域及其多边形凸包信息。文本字符对应的联通像素区域指的是在二值图像中是联通区域，且其原输入图像对应的位置为文本字符。采用基于8-联通邻域模式搜索二值图像{B_p}中取值为1的所有像素组成的联通像素区域，剔除像素数量多于1000或者少于10的联通区域。之后，计算各联通像素区域的多边形凸包顶点坐标及其质心坐标。对于任意多边形凸包CH，其质心c＝(x,y)^T的计算公式如下：

其中，N_v是给定多边形凸包CH所包含的顶点数量，x_i和y_i分别为多边形凸包顶点v_i(i＝{1,2,…,N_v})在图像空间中的横坐标和纵坐标。

接下来，确定投影直线束(k＝{1,2,…,N_θ}，N_θ表示投影直线的数量，取值为181，其中投影直线表示与图像纵向坐标轴之间夹角为θ_k的直线，θ_k的计算公式是：

最后，对于各多边形CH，计算距离其质心c最近的N_c个多边形凸包在投影直线上的投影线段。整数N_c取值48，对于变形严重的文档，可降低N_c的取值。记为距离c最近的N_c个多边形凸包的下标集合。按照如下公式计算多边形凸包在各投影直线(k＝{1,2,…,N_θ})上的投影线段起、止点的横坐标x_a(CH_i,θ_k)和x_b(CH_i,θ_k)：

其中，表示多边形凸包CH_i的顶点数量，v_j＝(x_j,y_j)^T表示CH_i第j个顶点在图像空间中的坐标。

步骤二，计算每个多边形凸包的质心所在位置文本字符的水平方向。

计算每个多边形凸包的质心所在位置字符的水平方向，即图像空间中字符水平走向与图像纵向坐标轴之间的夹角。其中，任意多边形凸包质心位置c所处位置的字符水平方向按照如下方式计算。

首先，构建距离c最近的N_c个多边形凸包在投影直线(k＝{1,2,…,N_θ})上的投影轮廓函数f_k(·)。f_k(x)的计算公式如下：

其中，

图3为投影轮廓函数f_k(x)的构建过程示意图。其中，图3(a)为距离质心c最近的48个字符的联通像素区域对应的多边形凸包，图3(b)为函数f₉₁(x)的曲线图，图3(c)为函数f₁₇₇(x)的曲线图。

其次，计算距离c最近的N_c个多边形凸包在投影直线(k＝{1,2,…,N_θ})上的离散投影代价函数E₁(k)，计算公式是：

其中，

以及

图4(a)为图3(a)所示文本区域对应的离散投影代价函数E₁(k)。

最后，估算质心c所在位置字符的水平方向。利用5阶多项式拟合方法根据各投影直线的离散投影代价E₁(k)(k＝1,2,…,N_θ)拟合关于k的连续投影代价曲线F₁(k)，函数拟合考察自变量的取值范围取是：

然后在曲线F₁(k)上搜索最小化函数取值的k(曲线拟合和最优解搜索示意图见图4(b))，并按照如下公式计算c所在位置文本的最优水平方向：

步骤三，计算每个多边形凸包的质心所在位置文本字符的垂直方向。

计算每个多边形凸包的质心所在位置字符的垂直方向，即图像空间中字符垂直走向与图像纵向坐标轴之间的夹角。其中，任意多边形凸包质心位置c所处位置的字符垂直方向按照如下方式计算。

首先，计算距离c最近的N_c个多边形凸包在投影直线(k＝1,2,…,N_θ)上的投影能量，计算公式是：

其中，||·||₂表示向量的欧几里德范数。

然后，估算质心c所在位置字符的垂直方向。利用5阶多项式拟合方法根据各投影直线的离散投影代价E₂(k)(k＝1,2,…,N_θ)拟合关于k的连续投影代价曲线F₂(k)，函数拟合考察自变量的取值范围取是：

步骤四，构建文本文档二维图像变形网格。

首先，对字符联通区域多边形凸包质心位置上的字符水平方向、垂直方向数据进行预处理。检查每个多边形凸包质心位置上的字符方向与其周围邻域质心上的字符方向均值的一致性，如果该字符方向与距离该质心最近的个邻域质心位置上所有方向的平均值的差异高于设定值Δθ(Δθ的取值为π/6)，则采用邻域均值替代该位置上的字符方向。

其次，构建文本方向函数。利用双线性插值方法，根据离散位置上的文本水平方向数据拟合相对于图像坐标x和y的文本水平方向函数O_h(x,y)。利用双线性插值方法，根据离散文本垂直方向数据拟合相对于图像坐标x和y的文本垂直方向函数O_v(x,y)。

最后，构建二维图像变形网格。包含三个步骤：

1.文本水平流线生成。分别以(1,mΔv)^T 为起始点，根据函数O_h(x,y)计算条文本水平流线。其中，H表示原始输入图像纵向像素数量，Δv为纵向采样间隔像素数量，取值是15。

2.文本垂直流线生成。分别以(nΔh,1)^T 为起始点，根据函数O_v(x,y)计算条文本垂直流线。其中，W表示原始输入图像横向像素数量，Δh为横向采样间隔像素数量，取值是30。

其中，文本流线生成的具体方法是：首先，确定起始点p₀；然后，沿文本水平(或者垂直)走向(文本走向根据函数O_h(x,y)(或者O_v(x,y))计算)，从p₀向前移动Δp个像素至位置p₁；然后，继续从p₁沿文本走向向前移动Δp个像素至位置p₂；以此类推直到移动至图像边界以外，依次连接各关键点p₀、p₁、p₂、…，形成的折线即为一条流线。其中，Δp的取值是6个像素。

3.二维图像变形网格构建。根据水平方向、垂直方向两组流线相交的结果构建二维图像变形网格，记所形成的二维图像变形网格纵向和横向单元格数量分别为M和N。

步骤五，重建文本页面的三维几何结构。

首先，建立单元格索引和网格顶点索引。将单元格、网格顶点按照从左至右、从上至下的顺序编号。按照如下公式计算二维图像变形网格中第q(q＝{1,2,…,M×N})个二维图像单元格Q_q的左上角、左下角、右下角、右上角顶点索引g_ul(q)、g_ll(q)、g_lr(q)、g_ur(q)：

图5为M＝4、N＝5的情况下单元格和网格顶点索引结果示意图，网格顶点索引号外加圆圈以和单元格索引相互区分。

然后，通过求解如下优化问题计算获得变形网格所有顶点的三维空间坐标的最优估计

其中，(x_t,y_t)^T和V_t＝(X_t,Y_t,Z_t)^T分别为第t(t＝{1,2,…,(M+1)×(N+1)})个网格顶点对应的二维图像坐标和三维空间坐标，参数α的取值是0.5。(x_t,y_t)^T是已知量，是待估计量。上述问题是一个线性最小二乘问题，通过奇异值分解(Singular Value Decomposition,SVD)方法求解。求解过程中，为了避免全零平凡解，令Z₁＝1。

步骤六，对原始输入的文本页面图像进行矫正，获得矫正的文本页面图像。

首先，对图像单元格进行正射矫正。利用图像透视变换技术将二维单元格Q_q(i＝{1,2,…,M×N})对应的图像区域矫正为宽为a_q、高为b_q的矩形图像块Q_q′。其中，a_q、b_q的计算公式是：

V_gul(q)，V_gll(q)，V_gur(q)分别表示第q个二维图像单元格Q_q的左上角、左下角、右上角顶点对应的三维空间坐标；V₁，V₂分别表示第1个、第2个网格顶点对应的三维空间坐标。

然后，根据Q_q的邻接关系将所有已矫正的单元格Q_q′拼合形成最终矫正图像。

图6为本发明方法在真实图像上的部分实验结果。其中，图6(a)为输入的4幅具有代表性的曲面化变形文本页面图像，从左至右分别为平面英文页面、进化曲面英文页面、进化曲面中文页面、一般曲面化变形页面，图6(b)为相应的矫正结果图像。通过实验，证明了本发明仅需输入一幅变形文本页面图像就能实现图像矫正，能够处理满足局部平滑特性的一般曲面化文本页面，并能同时消除文本页面形状变形和成像透视投影变形。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种曲面化变形文本页面图像矫正方法，其特征在于，包括以下步骤：

(S1)提取文本联通像素区域及其多边形凸包投影信息；

其中，C_p和分别表示原始输入的文本图像及其高斯滤波后的图像中像素p的取值，σ表示高斯平滑窗口大小，λ₁、λ₂为常数参数；

其中，N_v是给定多边形凸包CH所包含的顶点数量，x_i和y_i分别为多边形凸包顶点v_i在图像空间中的横坐标和纵坐标，i＝{1,2,…,N_v}；图像空间指的是图像所在二维平面，图像空间坐标原点位于图像左上角，横向坐标轴方向为由左向右方向，纵向坐标轴方向为由上向下方向；

(S13)确定投影直线束k＝{1,2,…,N_θ}，N_θ表示投影直线的数量，其中投影直线表示与图像纵向坐标轴之间夹角为θ_k的直线，θ_k的计算公式是：

(S14)对于每个多边形凸包CH，计算距离其质心c最近的N_c个多边形凸包在投影直线上的投影线段；记为距离c最近的N_c个多边形凸包的下标集合，计算多边形凸包CH_i在各投影直线上的投影线段起、止点的横坐标，记为x_a(CH_i,θ_k)和x_b(CH_i,θ_k)；

(S2)计算每个多边形凸包的质心所在位置字符的水平方向；

(S21)构建距离多边形凸包质心c最近的N_c个多边形凸包在投影直线上的投影轮廓函数f_k(·)，k＝{1,2,…,N_θ}，f_k(x)的计算公式如下：

其中，

(S22)计算距离c最近的N_c个多边形凸包在投影直线上的离散投影代价函数E₁(k)，k＝{1,2,…,N_θ}，计算公式为：

其中，

以及

j取整数，取值范围为1,2，…，N_s，表示向下取整数，表示向上取整数；

(S23)估算质心c所在位置字符的水平方向，利用5阶多项式拟合方法根据各投影直线的离散投影代价函数E₁(k)拟合关于k的连续投影代价曲线F₁(k)，k＝1,2,…,N_θ，离散投影代价函数E₁(k)拟合考察自变量的取值范围是：

其中，argmin表示使目标函数取最小值时的变量值；然后在曲线F₁(k)上搜索最小化函数取值的k，并按照如下公式计算c所在位置字符的最优水平方向：

(S3)计算每个多边形凸包的质心所在位置字符的垂直方向；

(S31)计算距离c最近的N_c个多边形凸包在投影直线上的投影能量E₂(k)，k＝1,2,…,N_θ，计算公式是：

其中，r_i是多边形凸包CH_i的外接圆直径，权重参数ω_i的计算公式如下：

其中，||·||₂表示向量的欧几里德范数，c表示任意指定的一个凸包的质心，c_i表示第i个凸包的质心；

(S32)估算质心c所在位置字符的垂直方向，利用5阶多项式拟合方法根据各投影直线的离散投影代价函数E₂(k)，拟合关于k的连续投影代价曲线F₂(k)，k＝1,2,…,N_θ，函数E₂(k)拟合考察自变量的取值范围是：

(S4)根据步骤(S2)和步骤(S3)中得到的水平方向和垂直方向，构建文本页面的二维图像变形网格；具体过程如下，

(S41)对字符联通区域多边形凸包质心位置上的字符水平方向、垂直方向数据进行预处理，检查每个多边形凸包质心位置上的字符方向与其周围邻域质心上的字符方向均值的一致性，如果该字符方向与距离该质心最近的个邻域质心位置上所有方向的平均值的差异高于设定值△θ，则采用邻域均值替代该位置上的字符方向；

(S43)构建二维图像变形网格，包括以下三个步骤：

(S431)生成文本水平流线，分别以(1,m△v)^T为起始点，根据函数O_h(x,y)计算条文本水平流线，其中H表示原始输入图像纵向像素数量，△v为纵向采样间隔像素数量；

(S432)生成文本垂直流线，分别以(n△h,1)^T为起始点，根据函数O_v(x,y)计算条文本垂直流线，其中W表示原始输入图像横向像素数量，△h为横向采样间隔像素数量；

(S433)构建二维图像变形网格，根据水平方向、垂直方向两组流线相交的结果构建二维图像变形网格，记所形成的二维图像变形网格纵向和横向单元格数量分别为M和N；

(S5)重建文本页面的三维几何结构；

(S51)建立单元格索引和网格顶点索引，将单元格、网格顶点按照从左至右、从上至下的顺序编号；记二维图像变形网格中第q个二维图像单元格Q_q的左上角、左下角、右下角、右上角顶点索引号分别为g_ul(q)、g_ll(q)、g_lr(q)、g_ur(q)；q＝{1,2,…,M×N}，M和N表示二维图像变形网格纵向和横向单元格数量；

(S52)通过求解如下优化问题计算获得变形网格所有顶点的三维空间坐标的最优估计

其中，(x_t,y_t)^T和V_t＝(X_t,Y_t,Z_t)^T分别为第t个网格顶点对应的二维图像坐标和三维空间坐标，α为参数，t＝{1,2,…,(M+1)×(N+1)}；

(S6)对原始输入的文本页面图像进行矫正，获得矫正的文本页面图像；具体过程如下，

(S61)对图像单元格进行正射矫正，利用图像透视变换方法将二维单元格Q_q对应的图像区域矫正为宽为a_q、高为b_q的矩形图像块Q′_q，q＝{1,2,…,M×N}M、N表示二维图像变形网格纵向和横向单元格数量，其中，a_q、b_q的计算公式是：

(S62)根据Q_q的邻接关系将所有已矫正的单元格Q′_q拼合形成最终矫正图像。

2.如权利要求1所述的一种曲面化变形文本页面图像矫正方法，其特征在于，所述σ取值范围是6～12个像素；λ₁的取值范围是0.7～0.9，λ₂的取值范围是20～30；N_θ取值范围是181～361，N_θ为整数；N_c的取值范围是32～64，N_c为整数。

3.如权利要求1所述的一种曲面化变形文本页面图像矫正方法，其特征在于，所述△θ的取值范围是π/6～π/5，△v取值范围是10～20，△h取值范围是20～40。

4.如权利要求1所述的一种曲面化变形文本页面图像矫正方法，其特征在于，所述α的取值范围是0.4～0.6。