CN106778739B - 一种曲面化变形文本页面图像矫正方法 - Google Patents
一种曲面化变形文本页面图像矫正方法 Download PDFInfo
- Publication number
- CN106778739B CN106778739B CN201611093282.XA CN201611093282A CN106778739B CN 106778739 B CN106778739 B CN 106778739B CN 201611093282 A CN201611093282 A CN 201611093282A CN 106778739 B CN106778739 B CN 106778739B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- page
- convex hull
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明属于图像信息处理领域,涉及一种曲面化变形文本页面图像矫正方法。该方法具体包括步骤:(S1)提取文本联通像素区域及其多边形凸包投影信息;(S2)计算每个多边形凸包的质心所在位置字符的水平方向;(S3)计算每个多边形凸包的质心所在位置字符的垂直方向;(S4)根据步骤(S2)和步骤(S3)中得到的水平方向和垂直方向,构建文本页面的二维图像变形网格;(S5)重建文本页面的三维几何结构;(S6)对原始输入的文本页面图像进行矫正,获得矫正的文本页面图像。本发明方法仅需要利用普通照相机拍摄一幅图像,且能够处理满足局部平滑特性的一般曲面化文本页面,并能同时消除文本页面形状变形和成像透视变形,更加灵活、实用。
Description
技术领域
本发明属于图像信息处理领域,涉及一种曲面化变形文本页面图像矫正方法。
背景技术
传统文档数字化系统通常采用平板扫描仪获取文本页面的数字图像,然后通过光学字符识别(optical character recognition,OCR)技术提取图像中的文本信息。作为文档数字化的重要步骤,OCR技术在学术界得以广泛研究。对于通过扫描方式获得的文本页面图像而言,利用现有的OCR技术可以获得极高的识别精度。尽管上述数字化处理过程可以获得很好的效果,许多研究人员试图利用数码相机替换平板扫描仪。这主要是因为数码相机与平板扫描仪相比具有许多优势,比如:数码相机易于携带、拍照速度快、拍照角度灵活等,且利用数码相机拍摄图像是一种被动式、非接触式方法,因此对于易碎文档(比如:历史文物文档)而言数码相机更为合适。然而,由于相机拍摄的文档图像通常包含严重变形,若直接利用OCR技术进行处理,则识别精度将受到较大的影响。实际应用中,文本页面通常呈现曲面化变形形式,这种文本页面图像中会引入两种类型的变形:一种是曲面化文本页面的几何变形,另一种是成像过程中引入的透视投影变形。因此,对于采用数码相机捕获图像的文档数字化系统而言,图像变形矫正十分必要。
现有文本页面图像变形消除方法大致可以划分为两类。第一类方法利用非线性图像变换实现变形文本页面图像矫正。这类方法首先将文字或者文本行分割出来,然后分别对文字或者文本行进行矫正。由于上述方法采用局部图像变换,因此不能处理非文本区域。为了获得具有一致性的结果,一些学者利用全局图像变换实现图像矫正。首先创建图像网格,然后通过网格正则化来估计全局图像变换实现图像变形消除。尽管利用非线性图像变换实现变形文本页面图像矫正可以获得较好的OCR效果,但由于缺少页面的三维形状信息,矫正后的文本页面图像中仍然存在明显是视觉变形。
另一类方法借助页面的三维形状信息对图像实施矫正。一旦获得了文本页面的三维形状信息,从理论上来说就能够实现任何类型的页面重投影,从而实现图像的精确矫正。计算机视觉领域的许多三维重建方法都被用于文本页面图像矫正。一些学者利用激光扫描仪(M.Pilu,“Deskewing perspectively distorted documents:An approach based onperceptual organization,”in“HPWhite Paper,”2001)、结构光(M.S.Brown andW.B.Seales,“Image restoration of arbitrarily warped documents,”IEEETransactions on Pattern Analysis and Machine Intelligence 26(10):1295-1306,2004)、立体相机(A.Yamashita,A.Kawarago,T.Kaneko,and K.T.Miura,“Shapereconstruction and image restoration for non-flat surfaces of documents witha stereo vision system,”in“Proceedings of the 17th International Conferenceon Pattern Recognition,”482-485,2004)等特殊设备来获取文本页面的三维形状,然后基于所获取的页面三维模型实现变形图像恢复。尽管利用上述附加的、已精确标定的硬件可以获得较好的效果,但这些系统成本较高、外形尺寸较大,因此在实际使用中受到一些限制。
近年来,一些学者尝试利用普通照相机拍摄文本页面,然后通过基于图像的方法获得文本页面的三维结构,进一步实现文本页面图像的矫正。Pal等(K.Pal,M.Terras,andT.Weyrich,“Interactive exploration and flattening of deformed historicaldocuments,”in “Proceedings of Eurographics 2013,”327-334,2013)提出一种针对历史文档的交互式浏览和矫正系统。该系统利用基于图像的多视图三维重建方法获取文档的三维模型,然后根据三维模型生成新的无变形文档图像。由于上述方法需要利用多视图几何实现三维重建,因此需要从不同角度拍摄多张图像,对实际应用带来不便。
与上述方法重建一般三维形状的方法不同,一些学者通过对文本页面的形状作出特定假设,以此简化图像矫正过程。Kim等(B.S.Kim,H.I.Koo,and N.I.Cho,“Documentdewarping via text-line based optimization,”Pattern Recognition 48(11):3600-3614,2015)假设文本页面是一般圆柱形曲面(general cylindrical surface,GCS),该方法可以同时消除几何变形和透视投影变形,而且只需拍摄一幅图像。然而,由于它采用了一般圆柱形曲面,因此并不能应用于一般曲面化变形文本页面图像的矫正。
发明内容
针对现有技术不足,本发明提出一种曲面化变形文本页面图像矫正方法,从单幅局部平滑的曲面化文本页面图像中计算文本页面的三维几何形状信息,在此基础上对文本页面图像进行矫正,以消除文本页面图像中由于三维曲面和透视投影引入的图像变形,具体技术方案如下。
一种曲面化变形文本页面图像矫正方法,包括以下步骤:
(S1)提取文本联通像素区域及其多边形凸包投影信息:将原始输入的变形文本页面图像转换为二值图像,提取二值图像中文本字符对应的联通像素区域及其多边形凸包信息;确定Nθ条投影直线,针对每一个多边形凸包,计算距离该多边形凸包质心最近的Nc个多边形凸包在各条投影直线上的投影线段,Nc,Nθ为整数;
(S2)计算每个多边形凸包的质心所在位置字符的水平方向,即图像空间中该字符水平走向与图像纵向坐标轴之间的夹角。其中,图像空间指的是图像所在二维平面,图像空间坐标原点位于图像左上角,横向坐标轴方向为由左向右方向,纵向坐标轴方向为由上向下方向。
(S3)计算每个多边形凸包的质心所在位置字符的垂直方向,即图像空间中该字符垂直走向与图像纵坐标轴之间的夹角;
(S4)根据步骤(S2)和(S3)中得到的水平方向和垂直方向,构建文本页面的二维图像变形网格;
(S5)重建文本页面的三维几何结构;
(S6)对原始输入的变形文本页面图像进行矫正,获得矫正的文本页面图像。
进一步地,所述步骤(S1)的具体过程为:
(S11)将输入的文本页面图像转换为二值图像,记为{Bp},二值图像中任意像素p的取值Bp采用如下公式计算:
其中,Cp和分别表示原始输入的文本图像及其高斯滤波后的图像中像素p的取值,σ表示高斯平滑窗口大小,取值范围是6~12个像素,λ1、λ2为常数参数;λ1的取值范围是0.7~0.9,λ2的取值范围是20~30。
(S12)采用基于8-联通邻域模式搜索二值图像{Bp}中取值为1的所有像素组成的联通像素区域,剔除像素数量多于1000或者少于10的联通区域;
计算各联通像素区域的多边形凸包顶点坐标及其质心坐标;对于任意多边形凸包CH,其质心c=(x,y)T的计算公式如下:
其中,Nv是给定多边形凸包CH所包含的顶点数量,xi和yi分别为多边形凸包顶点vi(i={1,2,…,Nv})在图像空间中的横坐标和纵坐标;T表示转置符号。
(S13)确定投影直线束k={1,2,…,Nθ},整数Nθ的取值范围是181~361,其中投影直线表示与图像纵向坐标轴之间夹角为θk的直线,θk的计算公式是:
(S14)对于每个多边形凸包CH,计算距离其质心c最近的Nc个多边形凸包在投影直线上的投影线段;整数Nc取的取值范围是32~64,对于变形严重的文档,可降低Nc的取值。记为距离c最近的Nc个多边形凸包的下标集合,计算多边形凸包在各投影直线(k={1,2,…,Nθ})上的投影线段起、止点的横坐标,记为xa(CHi,θk)和xb(CHi,θk)。
进一步地,所述步骤(S2)的具体过程为:
(S21)构建距离多边形凸包质心c最近的Nc个多边形凸包在投影直线(k={1,2,…,Nθ})上的投影轮廓函数fk(·),fk(x)的计算公式如下:
其中,
(S22)计算距离c最近的Nc个多边形凸包在投影直线(k={1,2,…,Nθ})上的离散投影代价函数E1(k),计算公式是:
其中,
以及
j取整数,范围为1,2,…,Ns。表示向下取整数,表示向上取整数。
(S23)估算质心c所在位置字符的水平方向,利用5阶多项式拟合方法根据各投影直线的离散投影代价函数E1(k)(k=1,2,…,Nθ)拟合关于k的连续投影代价曲线F1(k),函数拟合考察自变量的取值范围取是:
其中,argmin表示使目标函数取最小值时的变量值。然后在曲线F1(k)上搜索最小化函数取值的k,并按照如下公式计算c所在位置字符的最优水平方向:
进一步地,所述步骤(S3)具体为:
(S31)计算距离多边形凸包质心c最近的Nc个多边形凸包在投影直线(k=1,2,…,Nθ)上的投影能量E2(k),计算公式是:
其中,是多边形凸包CHi的外接圆直径,权重参数ωi的计算公式如下:
其中,||·||2表示向量的欧几里德范数,c表示任意指定的一个多边形凸包的质心,ci表示第i个多边形凸包的质心;
(S32)估算质心c所在位置字符的垂直方向,利用5阶多项式拟合方法根据各投影直线的离散投影代价E2(k),(k=1,2,…,Nθ)拟合关于k的连续投影代价曲线F2(k),函数拟合考察自变量的取值范围取是:
然后在曲线F2(k)上搜索最小化函数取值的k,并按照如下公式计算c所在位置字符的最优垂直方向:
进一步地,所述步骤(S4)具体步骤为:
(S41)对字符联通区域多边形凸包质心位置上的字符水平方向、垂直方向数据进行预处理。检查每个多边形凸包质心位置上的字符方向与其周围邻域位置上的字符方向均值的一致性,如果该多边形凸包质心位置上的字符方向(即当前所检查的多边形凸包质心位置)与距离该质心最近的个邻域质心位置上所有字符方向的平均值的差异高于Δθ(Δθ的取值范围是π/6~π/5),则采用邻域均值替代该位置上的字符方向。
(S42)构建文本方向函数,利用双线性插值方法,根据多边形凸包质心位置上的字符水平方向数据拟合相对于图像坐标x和y的文本水平方向函数Oh(x,y);利用双线性插值方法,根据多边形凸包质心位置上的字符垂直方向数据拟合相对于图像坐标x和y的文本垂直方向函数Ov(x,y);
(S43)构建二维图像变形网格,包括以下三个步骤:
(S431)生成文本水平流线,分别以(1,mΔv)T为起始点,根据函数Oh(x,y)计算条文本水平流线,其中H表示原始输入图像(即原始输入的变形文本页面图像)纵向像素数量,Δv为纵向采样间隔像素数量,取值范围是10~20。
(S432)生成文本垂直流线,分别以(nΔh,1)T为起始点,根据函数Ov(x,y)计算条文本垂直流线,其中W表示原始输入图像横向像素数量,Δh为横向采样间隔像素数量,取值范围是20~40;
其中,文本水平(或垂直)流线生成的具体方法是:首先,确定起始点p0;然后,沿文本水平(或者垂直)走向(文本水平走向根据函数Oh(x,y)计算(或者文本垂直走向根据Ov(x,y)计算)),从p0向前移动Δp个像素至位置p1;然后,继续从p1沿文本走向向前移动Δp个像素至位置p2;以此类推直到移动至图像边界以外,依次连接各关键点p0、p1、p2、…,形成的折线即为一条流线;其中,Δp的取值范围是4~8个像素;
(S433)构建二维图像变形网格,根据水平方向、垂直方向两组流线相交的结果构建二维图像变形网格,记所形成的二维图像变形网格纵向和横向单元格数量分别为M和N。
进一步地,所述步骤(S5)具体过程为:
(S51)建立单元格索引和网格顶点索引,将单元格、网格顶点按照从左至右、从上至下的顺序编号;记二维图像变形网格中第q(q={1,2,…,M×N})个二维图像单元格Qq的左上角、左下角、右下角、右上角顶点索引号分别为gul(q)、gll(q)、glr(q)、gur(q)。
(S52)通过求解如下优化问题计算获得变形网格所有顶点的三维空间坐标的最优估计值
其中,(xt,yt)T和Vt=(Xt,Yt,Zt)T分别为第t(t={1,2,…,(M+1)×(N+1)})个网格顶点对应的二维图像坐标和三维空间坐标,α为参数,α的取值范围是0.4~0.6。(xt,yt)T是已知量,是待估计量,字母右上角加*表示最优估计值。
进一步地,所述步骤(S6)具体步骤为:
(S61)对图像单元格进行正射矫正,利用图像透视变换技术将二维单元格Qq(q={1,2,…,M×N})对应的图像区域矫正为宽为aq、高为bq的矩形图像块Qq′,其中aq、bq的计算公式是:
(S62)根据Qq的邻接关系将所有已矫正的单元格Qq′拼合形成最终矫正图像。
采用本发明的有益效果:已有基于三维形状恢复的文本页面变形矫正方法要么借助附加的、已标定硬件实现文档页面的三维重建,要么需要利用多张文本页面图像恢复文档页面的三维形状,或者只能处理满足一般圆柱形曲面、进化曲面等比较严格的形状约束的文档页面。本发明方法仅需要利用普通照相机拍摄一幅图像,且能够处理满足局部平滑特性的一般曲面化文本页面,并能同时消除文本页面形状变形和成像透视变形,因此本发明方法更加灵活、实用。
附图说明
图1为本发明一种曲面化变形文本页面图像矫正方法的流程图;
图2为提取文本联通像素区域及其多边形凸包投影信息的流程图;
图3为投影轮廓函数构建示意图;
图4为离散投影代价函数及连续投影代价曲线示意图;
图5为单元格、顶点索引示意图;
图6为本发明实施例的实验结果图。
具体实施方式
下面,结合附图和具体实施例对本发明作进一步说明。
如图1所示,本发明提供了一种曲面化变形文本页面图像矫正方法,包括如下步骤:
步骤一,提取文本联通像素区域及其多边形凸包投影信息。文本联通像素区域及其多边形凸包投影信息提取的流程如图2所示。
首先,将原始输入的变形文本页面图像转换为二值图像{Bp}。二值图像中任意像素p的取值Bp采用如下公式计算:
其中,Cp和分别表示原始输入的文本页面图像及其高斯滤波后图像中像素p的取值,高斯平滑窗口σ取值为10个像素,参数λ1=0.8,λ2=25。
其次,提取文本字符对应的联通像素区域及其多边形凸包信息。文本字符对应的联通像素区域指的是在二值图像中是联通区域,且其原输入图像对应的位置为文本字符。采用基于8-联通邻域模式搜索二值图像{Bp}中取值为1的所有像素组成的联通像素区域,剔除像素数量多于1000或者少于10的联通区域。之后,计算各联通像素区域的多边形凸包顶点坐标及其质心坐标。对于任意多边形凸包CH,其质心c=(x,y)T的计算公式如下:
其中,Nv是给定多边形凸包CH所包含的顶点数量,xi和yi分别为多边形凸包顶点vi(i={1,2,…,Nv})在图像空间中的横坐标和纵坐标。
接下来,确定投影直线束(k={1,2,…,Nθ},Nθ表示投影直线的数量,取值为181,其中投影直线表示与图像纵向坐标轴之间夹角为θk的直线,θk的计算公式是:
最后,对于各多边形CH,计算距离其质心c最近的Nc个多边形凸包在投影直线上的投影线段。整数Nc取值48,对于变形严重的文档,可降低Nc的取值。记为距离c最近的Nc个多边形凸包的下标集合。按照如下公式计算多边形凸包在各投影直线(k={1,2,…,Nθ})上的投影线段起、止点的横坐标xa(CHi,θk)和xb(CHi,θk):
其中,表示多边形凸包CHi的顶点数量,vj=(xj,yj)T表示CHi第j个顶点在图像空间中的坐标。
步骤二,计算每个多边形凸包的质心所在位置文本字符的水平方向。
计算每个多边形凸包的质心所在位置字符的水平方向,即图像空间中字符水平走向与图像纵向坐标轴之间的夹角。其中,任意多边形凸包质心位置c所处位置的字符水平方向按照如下方式计算。
首先,构建距离c最近的Nc个多边形凸包在投影直线(k={1,2,…,Nθ})上的投影轮廓函数fk(·)。fk(x)的计算公式如下:
其中,
图3为投影轮廓函数fk(x)的构建过程示意图。其中,图3(a)为距离质心c最近的48个字符的联通像素区域对应的多边形凸包,图3(b)为函数f91(x)的曲线图,图3(c)为函数f177(x)的曲线图。
其次,计算距离c最近的Nc个多边形凸包在投影直线(k={1,2,…,Nθ})上的离散投影代价函数E1(k),计算公式是:
其中,
以及
图4(a)为图3(a)所示文本区域对应的离散投影代价函数E1(k)。
最后,估算质心c所在位置字符的水平方向。利用5阶多项式拟合方法根据各投影直线的离散投影代价E1(k)(k=1,2,…,Nθ)拟合关于k的连续投影代价曲线F1(k),函数拟合考察自变量的取值范围取是:
然后在曲线F1(k)上搜索最小化函数取值的k(曲线拟合和最优解搜索示意图见图4(b)),并按照如下公式计算c所在位置文本的最优水平方向:
步骤三,计算每个多边形凸包的质心所在位置文本字符的垂直方向。
计算每个多边形凸包的质心所在位置字符的垂直方向,即图像空间中字符垂直走向与图像纵向坐标轴之间的夹角。其中,任意多边形凸包质心位置c所处位置的字符垂直方向按照如下方式计算。
首先,计算距离c最近的Nc个多边形凸包在投影直线(k=1,2,…,Nθ)上的投影能量,计算公式是:
其中,是多边形凸包CHi的外接圆直径,权重参数ωi的计算公式如下:
其中,||·||2表示向量的欧几里德范数。
然后,估算质心c所在位置字符的垂直方向。利用5阶多项式拟合方法根据各投影直线的离散投影代价E2(k)(k=1,2,…,Nθ)拟合关于k的连续投影代价曲线F2(k),函数拟合考察自变量的取值范围取是:
然后在曲线F2(k)上搜索最小化函数取值的k,并按照如下公式计算c所在位置字符的最优垂直方向:
步骤四,构建文本文档二维图像变形网格。
首先,对字符联通区域多边形凸包质心位置上的字符水平方向、垂直方向数据进行预处理。检查每个多边形凸包质心位置上的字符方向与其周围邻域质心上的字符方向均值的一致性,如果该字符方向与距离该质心最近的个邻域质心位置上所有方向的平均值的差异高于设定值Δθ(Δθ的取值为π/6),则采用邻域均值替代该位置上的字符方向。
其次,构建文本方向函数。利用双线性插值方法,根据离散位置上的文本水平方向数据拟合相对于图像坐标x和y的文本水平方向函数Oh(x,y)。利用双线性插值方法,根据离散文本垂直方向数据拟合相对于图像坐标x和y的文本垂直方向函数Ov(x,y)。
最后,构建二维图像变形网格。包含三个步骤:
1.文本水平流线生成。分别以(1,mΔv)T 为起始点,根据函数Oh(x,y)计算条文本水平流线。其中,H表示原始输入图像纵向像素数量,Δv为纵向采样间隔像素数量,取值是15。
2.文本垂直流线生成。分别以(nΔh,1)T 为起始点,根据函数Ov(x,y)计算条文本垂直流线。其中,W表示原始输入图像横向像素数量,Δh为横向采样间隔像素数量,取值是30。
其中,文本流线生成的具体方法是:首先,确定起始点p0;然后,沿文本水平(或者垂直)走向(文本走向根据函数Oh(x,y)(或者Ov(x,y))计算),从p0向前移动Δp个像素至位置p1;然后,继续从p1沿文本走向向前移动Δp个像素至位置p2;以此类推直到移动至图像边界以外,依次连接各关键点p0、p1、p2、…,形成的折线即为一条流线。其中,Δp的取值是6个像素。
3.二维图像变形网格构建。根据水平方向、垂直方向两组流线相交的结果构建二维图像变形网格,记所形成的二维图像变形网格纵向和横向单元格数量分别为M和N。
步骤五,重建文本页面的三维几何结构。
首先,建立单元格索引和网格顶点索引。将单元格、网格顶点按照从左至右、从上至下的顺序编号。按照如下公式计算二维图像变形网格中第q(q={1,2,…,M×N})个二维图像单元格Qq的左上角、左下角、右下角、右上角顶点索引gul(q)、gll(q)、glr(q)、gur(q):
图5为M=4、N=5的情况下单元格和网格顶点索引结果示意图,网格顶点索引号外加圆圈以和单元格索引相互区分。
然后,通过求解如下优化问题计算获得变形网格所有顶点的三维空间坐标的最优估计
其中,(xt,yt)T和Vt=(Xt,Yt,Zt)T分别为第t(t={1,2,…,(M+1)×(N+1)})个网格顶点对应的二维图像坐标和三维空间坐标,参数α的取值是0.5。(xt,yt)T是已知量,是待估计量。上述问题是一个线性最小二乘问题,通过奇异值分解(Singular Value Decomposition,SVD)方法求解。求解过程中,为了避免全零平凡解,令Z1=1。
步骤六,对原始输入的文本页面图像进行矫正,获得矫正的文本页面图像。
首先,对图像单元格进行正射矫正。利用图像透视变换技术将二维单元格Qq(i={1,2,…,M×N})对应的图像区域矫正为宽为aq、高为bq的矩形图像块Qq′。其中,aq、bq的计算公式是:
Vgul(q),Vgll(q),Vgur(q)分别表示第q个二维图像单元格Qq的左上角、左下角、右上角顶点对应的三维空间坐标;V1,V2分别表示第1个、第2个网格顶点对应的三维空间坐标。
然后,根据Qq的邻接关系将所有已矫正的单元格Qq′拼合形成最终矫正图像。
图6为本发明方法在真实图像上的部分实验结果。其中,图6(a)为输入的4幅具有代表性的曲面化变形文本页面图像,从左至右分别为平面英文页面、进化曲面英文页面、进化曲面中文页面、一般曲面化变形页面,图6(b)为相应的矫正结果图像。通过实验,证明了本发明仅需输入一幅变形文本页面图像就能实现图像矫正,能够处理满足局部平滑特性的一般曲面化文本页面,并能同时消除文本页面形状变形和成像透视投影变形。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种曲面化变形文本页面图像矫正方法,其特征在于,包括以下步骤:
(S1)提取文本联通像素区域及其多边形凸包投影信息;
(S11)将输入的文本页面图像转换为二值图像,记为{Bp},二值图像中任意像素p的取值Bp采用如下公式计算:
其中,Cp和分别表示原始输入的文本图像及其高斯滤波后的图像中像素p的取值,σ表示高斯平滑窗口大小,λ1、λ2为常数参数;
(S12)采用基于8-联通邻域模式搜索二值图像{Bp}中取值为1的所有像素组成的联通像素区域,剔除像素数量多于1000或者少于10的联通区域;
计算各联通像素区域的多边形凸包顶点坐标及其质心坐标;对于任意多边形凸包CH,其质心c=(x,y)T的计算公式如下:
其中,Nv是给定多边形凸包CH所包含的顶点数量,xi和yi分别为多边形凸包顶点vi在图像空间中的横坐标和纵坐标,i={1,2,…,Nv};图像空间指的是图像所在二维平面,图像空间坐标原点位于图像左上角,横向坐标轴方向为由左向右方向,纵向坐标轴方向为由上向下方向;
(S13)确定投影直线束k={1,2,…,Nθ},Nθ表示投影直线的数量,其中投影直线表示与图像纵向坐标轴之间夹角为θk的直线,θk的计算公式是:
(S14)对于每个多边形凸包CH,计算距离其质心c最近的Nc个多边形凸包在投影直线上的投影线段;记为距离c最近的Nc个多边形凸包的下标集合,计算多边形凸包CHi在各投影直线上的投影线段起、止点的横坐标, 记为xa(CHi,θk)和xb(CHi,θk);
(S2)计算每个多边形凸包的质心所在位置字符的水平方向;
(S21)构建距离多边形凸包质心c最近的Nc个多边形凸包在投影直线上的投影轮廓函数fk(·),k={1,2,…,Nθ},fk(x)的计算公式如下:
其中,
(S22)计算距离c最近的Nc个多边形凸包在投影直线上的离散投影代价函数E1(k),k={1,2,…,Nθ},计算公式为:
其中,
以及
j取整数,取值范围为1,2,…,Ns,表示向下取整数,表示向上取整数;
(S23)估算质心c所在位置字符的水平方向,利用5阶多项式拟合方法根据各投影直线的离散投影代价函数E1(k)拟合关于k的连续投影代价曲线F1(k),k=1,2,…,Nθ,离散投影代价函数E1(k)拟合考察自变量的取值范围是:
其中,argmin表示使目标函数取最小值时的变量值;然后在曲线F1(k)上搜索最小化函数取值的k,并按照如下公式计算c所在位置字符的最优水平方向:
(S3)计算每个多边形凸包的质心所在位置字符的垂直方向;
(S31)计算距离c最近的Nc个多边形凸包在投影直线上的投影能量E2(k),k=1,2,…,Nθ,计算公式是:
其中,ri是多边形凸包CHi的外接圆直径,权重参数ωi的计算公式如下:
其中,||·||2表示向量的欧几里德范数,c表示任意指定的一个凸包的质心,ci表示第i个凸包的质心;
(S32)估算质心c所在位置字符的垂直方向,利用5阶多项式拟合方法根据各投影直线的离散投影代价函数E2(k),拟合关于k的连续投影代价曲线F2(k),k=1,2,…,Nθ,函数E2(k)拟合考察自变量的取值范围是:
然后在曲线F2(k)上搜索最小化函数取值的k,并按照如下公式计算c所在位置字符的最优垂直方向:
(S4)根据步骤(S2)和步骤(S3)中得到的水平方向和垂直方向,构建文本页面的二维图像变形网格;具体过程如下,
(S41)对字符联通区域多边形凸包质心位置上的字符水平方向、垂直方向数据进行预处理,检查每个多边形凸包质心位置上的字符方向与其周围邻域质心上的字符方向均值的一致性,如果该字符方向与距离该质心最近的个邻域质心位置上所有方向的平均值的差异高于设定值△θ,则采用邻域均值替代该位置上的字符方向;
(S42)构建文本方向函数,利用双线性插值方法,根据多边形凸包质心位置上的字符水平方向数据拟合相对于图像坐标x和y的文本水平方向函数Oh(x,y);利用双线性插值方法,根据多边形凸包质心位置上的字符垂直方向数据拟合相对于图像坐标x和y的文本垂直方向函数Ov(x,y);
(S43)构建二维图像变形网格,包括以下三个步骤:
(S431)生成文本水平流线,分别以(1,m△v)T为起始点,根据函数Oh(x,y)计算条文本水平流线,其中H表示原始输入图像纵向像素数量,△v为纵向采样间隔像素数量;
(S432)生成文本垂直流线,分别以(n△h,1)T为起始点,根据函数Ov(x,y)计算条文本垂直流线,其中W表示原始输入图像横向像素数量,△h为横向采样间隔像素数量;
(S433)构建二维图像变形网格,根据水平方向、垂直方向两组流线相交的结果构建二维图像变形网格,记所形成的二维图像变形网格纵向和横向单元格数量分别为M和N;
(S5)重建文本页面的三维几何结构;
(S51)建立单元格索引和网格顶点索引,将单元格、网格顶点按照从左至右、从上至下的顺序编号;记二维图像变形网格中第q个二维图像单元格Qq的左上角、左下角、右下角、右上角顶点索引号分别为gul(q)、gll(q)、glr(q)、gur(q);q={1,2,…,M×N},M和N表示二维图像变形网格纵向和横向单元格数量;
(S52)通过求解如下优化问题计算获得变形网格所有顶点的三维空间坐标的最优估计
其中,(xt,yt)T和Vt=(Xt,Yt,Zt)T分别为第t个网格顶点对应的二维图像坐标和三维空间坐标,α为参数,t={1,2,…,(M+1)×(N+1)};
(S6)对原始输入的文本页面图像进行矫正,获得矫正的文本页面图像;具体过程如下,
(S61)对图像单元格进行正射矫正,利用图像透视变换方法将二维单元格Qq对应的图像区域矫正为宽为aq、高为bq的矩形图像块Q′q,q={1,2,…,M×N}M、N表示二维图像变形网格纵向和横向单元格数量,其中,aq、bq的计算公式是:
(S62)根据Qq的邻接关系将所有已矫正的单元格Q′q拼合形成最终矫正图像。
2.如权利要求1所述的一种曲面化变形文本页面图像矫正方法,其特征在于,所述σ取值范围是6~12个像素;λ1的取值范围是0.7~0.9,λ2的取值范围是20~30;Nθ取值范围是181~361,Nθ为整数;Nc的取值范围是32~64,Nc为整数。
3.如权利要求1所述的一种曲面化变形文本页面图像矫正方法,其特征在于,所述△θ的取值范围是π/6~π/5,△v取值范围是10~20,△h取值范围是20~40。
4.如权利要求1所述的一种曲面化变形文本页面图像矫正方法,其特征在于,所述α的取值范围是0.4~0.6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611093282.XA CN106778739B (zh) | 2016-12-02 | 2016-12-02 | 一种曲面化变形文本页面图像矫正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611093282.XA CN106778739B (zh) | 2016-12-02 | 2016-12-02 | 一种曲面化变形文本页面图像矫正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778739A CN106778739A (zh) | 2017-05-31 |
CN106778739B true CN106778739B (zh) | 2019-06-14 |
Family
ID=58915825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611093282.XA Active CN106778739B (zh) | 2016-12-02 | 2016-12-02 | 一种曲面化变形文本页面图像矫正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778739B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734766B (zh) * | 2018-05-17 | 2022-04-08 | 业成科技(成都)有限公司 | 曲面装置的曲率半径的评估方法 |
CN111666515A (zh) * | 2019-03-07 | 2020-09-15 | 深圳市茁壮网络股份有限公司 | 页面元素变换方法及装置 |
CN111832371A (zh) * | 2019-04-23 | 2020-10-27 | 珠海金山办公软件有限公司 | 文本图片矫正方法、装置、电子设备及机器可读存储介质 |
CN111476235B (zh) * | 2020-03-31 | 2023-04-25 | 成都数之联科技股份有限公司 | 一种3d曲面文本图片的合成方法 |
CN112200822A (zh) * | 2020-10-28 | 2021-01-08 | 广东南方数码科技股份有限公司 | 表格重建方法、装置、计算机设备及存储介质 |
CN112364834A (zh) * | 2020-12-07 | 2021-02-12 | 上海叠念信息科技有限公司 | 一种基于深度学习和图像处理的表格识别的还原方法 |
CN112541506B (zh) * | 2020-12-09 | 2023-11-28 | 上海肇观电子科技有限公司 | 文本图像的矫正方法及装置、设备和介质 |
CN115641280B (zh) * | 2022-12-16 | 2023-03-17 | 摩尔线程智能科技(北京)有限责任公司 | 图像校正方法及装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101267493A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 透视变形文档图像的校正装置和校正方法 |
WO2009137634A1 (en) * | 2008-05-06 | 2009-11-12 | Compulink Management Center, Inc. | Camera-based document imaging |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101207127B1 (ko) * | 2010-03-19 | 2012-11-30 | 전남대학교산학협력단 | 문자 인식 전처리 방법 및 장치 |
-
2016
- 2016-12-02 CN CN201611093282.XA patent/CN106778739B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101267493A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 透视变形文档图像的校正装置和校正方法 |
WO2009137634A1 (en) * | 2008-05-06 | 2009-11-12 | Compulink Management Center, Inc. | Camera-based document imaging |
CN102084378A (zh) * | 2008-05-06 | 2011-06-01 | 计算机连接管理中心公司 | 基于照相机的文档成像 |
Non-Patent Citations (2)
Title |
---|
数码相机拍摄的透视文本图像的校正;贺志明;《上海工程技术大学学报》;20070930;第21卷(第3期);第260-264页 |
视觉文档图像的矫正方法研究;蒋智文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215;正文第31-36页 |
Also Published As
Publication number | Publication date |
---|---|
CN106778739A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778739B (zh) | 一种曲面化变形文本页面图像矫正方法 | |
CN109872397B (zh) | 一种基于多目立体视觉的飞机零件的三维重建方法 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
CN103106688B (zh) | 基于双层配准方法的室内三维场景重建方法 | |
WO2015139574A1 (zh) | 一种静态物体重建方法和系统 | |
CN112686935B (zh) | 基于特征融合的机载测深雷达与多光谱卫星影像配准方法 | |
CN106127690A (zh) | 一种无人机遥感图像快速拼接方法 | |
CN102697508A (zh) | 采用单目视觉的三维重建来进行步态识别的方法 | |
CN109658444A (zh) | 一种基于多模态特征的规则三维彩色点云配准方法 | |
CN107220928A (zh) | 一种牙齿ct图像像素数据转化至3d打印数据的方法 | |
CN108537865A (zh) | 一种基于视觉三维重建的古建筑模型生成方法和装置 | |
CN102446356A (zh) | 一种获取均匀分布匹配点的遥感影像并行自适应匹配方法 | |
CN109238268A (zh) | 不规则小天体导航形心的最优外接椭圆提取方法 | |
CN108960267A (zh) | 用于模型调整的系统和方法 | |
CN107154017A (zh) | 一种基于sift特征点匹配的图像拼接方法 | |
Feng et al. | Deep unrestricted document image rectification | |
KR101538014B1 (ko) | 3d 모델링을 통해 사진 이미지로부터 입체영상을 생성하는 방법 | |
CN106780577B (zh) | 一种基于组特征的直线匹配方法 | |
CN112767459A (zh) | 基于2d-3d转换的无人机激光点云与序列影像配准方法 | |
CN111724428A (zh) | 基于图上信号模型的深度图采样与重构方法 | |
CN116883590A (zh) | 一种三维人脸点云优化方法、介质及系统 | |
Luo et al. | Geometric rectification of creased document images based on isometric mapping | |
Jisen | A study on target recognition algorithm based on 3D point cloud and feature fusion | |
CN112508007B (zh) | 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法 | |
CN108665470A (zh) | 一种交互式轮廓提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |