CN1294523C

CN1294523C - 一种已知表格的版面自动定向和定位方法

Info

Publication number: CN1294523C
Application number: CNB2004100429846A
Authority: CN
Inventors: 徐剑波
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Inst Of Computer Science & Technology Peking University
Current assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Inst Of Computer Science & Technology Peking University
Priority date: 2004-06-04
Filing date: 2004-06-04
Publication date: 2007-01-10
Anticipated expiration: 2024-06-04
Also published as: CN1584920A

Abstract

本发明涉及计算机信息处理领域的模式识别技术，具体涉及一种已知表格的版面自动定向和定位方法。现有技术中，通过计算机系统对表格和票据扫描录入，需要人工干预进行版面的定向，而计算机系统无法进行自动的批量处理，效率非常低；同时由于扫描过程的扫描分辨率的不稳定性、存在污点等情况而影响表格和票据的自动录入效果。本发明所述的方法通过计算机自动提取表格线，与已知的表格线进行匹配从而判定表格的方向，并使用最小二乘法准确定位表格并计算出伸缩比例。采用本发明所述的方法，可以大大提高表格类文档以及票据的录入效率和精度。

Description

一种已知表格的版面自动定向和定位方法

技术领域

本发明涉及计算机信息处理领域的模式识别技术，具体涉及一种已知表格的版面自动定向和定位方法。

背景技术

OCR技术的一个重要应用是表格的输入和处理。目前存在大量的专用表格，如各种票据、报表等，其显著的特点是表格的样式事先知道(即已知表格)，而录入关注的是其中的文字和数据信息。

现有技术中，对于这类专用表格，通过计算机系统进行录入过程包括扫描过程、二值化和纠斜等预处理过程、版面分析和切割、识别、校对等步骤。其中扫描、校对等步骤需要人工干预。当对大量表格进行录入时，必须在扫描之前人工保证所有表格同向放置，或者在扫描完成后通过人工操作计算机对图像逐个检查并旋转版面方向，才能进行后面的步骤。因而无法进行自动的批量处理，效率非常低。

另外，在进行表格识别前，往往要先去除表格线，以减少对版面分析和识别的干扰，提高准确率。

现有技术中，去除表格线有两种方式：1)在印制表格和填写表格的内容时使用不同的颜色，在扫描环节或预处理环节对颜色进行过滤，保留表格内容部分，去除印刷部分。该方法的缺点是，表格内容和印刷必须使用不同的颜色，需要事先准备和特殊的印刷技术，对色差的要求比较高，因而在价格和应用方面有很大的限制。2)使用填入表格信息抽出方法(FormOut)，与本发明最为接近的现有技术是文献“自动抽出填入表格信息的改进算法”[第八届全国汉字识别学术会议论文集(2002年)，第165-174页，作者吴显礼]所述，该方法通过把预先登录空白表格与填入表格对准后消去表格线。对准的方法是，抽取预先登录表格和填入表格的左上角特征点计算偏移量，抽取两个表格的右下角特征点来计算表格的伸缩比例。其缺点是，当图像存在干扰往往导致特征点抽取效果不佳，或由于扫描过程的扫描分辨率的不稳定性导致表格偏移量或伸缩比例计算存在较大误差，从而影响去线的效果；在自动进纸方式(ADF)的扫描中，由于光头不动纸动，当光头与纸之间存在脏点是会在扫描得到的图像中出现直线干扰，严重影响表格定位和去线的效果；另外，当定位使用的表格特征点存在干扰，或由于某种原因无法抽取该特征点时，定位和伸缩比例计算将无法进行。

发明内容

针对现有技术中表格和票据计算机录入过程中的不足，本发明的目的是提出一种已知表格的版面自动定向和定位方法，该方法使表格或票据类文档在进行计算机录入时减少人工操作或干预，提高录入效率。本发明的另外一个目的在于能够精确确定表格图像的位置以及图像的伸缩比例，抗干扰能力强，从而能大大提升去线的效果，提高自动录入的准确度。

为实现以上目的，本发明采用的技术方案是：一种已知表格版面的自动定向和定位方法，包括以下步骤：

(1)首先通过数字化设备对待识别的表格进行数字化得到待识别表格的图像，然后通过计算机系统进行预处理，并从待识别表格图像中提取竖直线和水平线的位置信息，分别得到待识别表格线的位置集合{x_i}和{y_i}；

(2)设已知表格正向放置状态下的竖直和水平表格线的位置为{X_i}和{Y_i}，把待识别表格的两个坐标方向的线系列与已知表格两个坐标方向的线系列按0度、90度、180度、270度四个旋转方向进行匹配，具体来说，就是：

a)不旋转：{X_i}和{Y_i}分别与{x_i}和{y_i}进行正向匹配；

b)顺时针90度或逆时针270度：对待识别表格线{x_i}和{y_i}进行变换，即待识别表格线的水平线系列{y_i}与已知表格线的竖直线系列{X_i}进行正向匹配，待识别表格线的竖直线系列{x_i}与已知表格线的水平线系列{Y_i}进行反向匹配；

c)顺时针180度或逆时针180度：对待识别表格线{x_i}和{y_i}进行变换，即待识别表格线的水平线系列{y_i}与已知表格线的水平线系列{Y_i}进行反向匹配，待识别表格线的竖直线系列{x_i}与已知表格线的竖直线系列{X_i}进行反向匹配；

d)顺时针270度或逆时针90度：对待识别表格线{x_i}和{y_i}进行变换，即待识别表格线的水平线系列{y_i}与已知表格线的竖直线系列{X_i}进行反向匹配，待识别表格线的竖直线系列{x_i}与已知表格线的水平线系列{Y_i}进行正向匹配；

(3)在步骤2中的四组匹配结果中，挑选最佳匹配的方向作为最终的表格的版面方向，对应竖直线和水平线的位置偏移(d_x，d_y)就是表格原点的在图中的位置，从而完成待识别表格版面的自动定向和定位；

在步骤2中，反向匹配与正向匹配的差别在于：在进行反向匹配前需要对其中的一个表格线系列进行变换：x’＝W-x.W为任意常数。一般可以取表格图像在该方向的宽度，这种情况下，反向变换后的坐标含义变成从图像的对边开始计算的线的坐标位置。变换完成后，直接使用正向匹配。

步骤3中所述的最佳匹配是指两个坐标方向的匹配线数最多，同时满足最低匹配线数的域值的匹配。

为使本发明具有更好的效果，步骤2中的正向匹配采用容错匹配方法，该方法可以排除干扰线、缺线的影响，同时能计算出整体偏移量d，具体包括以下步骤：设待匹配的线系列为{x₁}和{x₂}，线的条数分别为n₁和n₂，{x₁}和{x₂}分别从小到大排列

(1)构建一个n₁*n₂的矩阵M，矩阵元素M(i，j)的值为x₁(i)减去x₂(j)所得的差，其中i＝1，2，...n₁，j＝1，2，...n₂，可知矩阵元素的最大值为M_max为x₁(n₁)减去x₂(1)所得的差，最小值为M_min为x₁(1)减去x₂(n₁)所得的差；

(2)构建一个一维数组V，项数为(M_max-M_min)/c，初值全部设为0，下标以0开始计，其中c为允许匹配的线的最大距离；

(3)遍历矩阵M，每项元素按以下公式计算索引值k，k＝[M(i，j)-M_min]/d，然后把V(k)增加计数值1；

(4)查找V中的最大值V_max及其下标值k_max，则V_max就是匹配线的条数，匹配时，偏移量d为k_max*c与M_min的和。

再进一步，步骤2中的正向匹配采用考虑伸缩的容错匹配方法，该方法可以在图像存在整体拉伸或缩小时进行有效匹配，同时能计算出具体的伸缩比例s以及整体偏移量d，具体包括以下步骤：设待匹配的线系列为{x₁}，{x₂}

(1)在设定的最大搜索伸缩比例范围区间[s_min，s_max]内，从s_min开始，按预先设定的增量Δs依次对{x₁}或{x₂}中的元素x进行伸缩运算，伸缩后数组{x’}的元素x’等于(1+s)*x，伸缩变换只要对{x₁}或{x₂}中的一个进行变换，另外一个不需要变换，下面假设对{x₂}进行变换，变化后的线系列为{x₂’}；

(2)对线系列{x₁}和{x₂’}按不考虑伸缩的容错匹配算法进行匹配，只要其中一次匹配成功，就可以看作伸缩容错匹配成功，记下此时的伸缩比例s和偏移值d；

(3)根据s和d对{x₁}和{x₂}进行挑选，对于一个{x₂}中的每一个元素x₂，计算其对应的x₁’值：x₁’为x₂*(1+s)与d的和，在{x₁}中查找落在区间[x₁’-c，x₁’+c]中的元素，其中c为容错匹配的允许匹配的线的最大距离，如果不存在这样的元素，则忽略该x₂，否则把对应的x₁和x₂选出；最后得到两个系列{x₁}’，{x₂}’分别为原{x₁}，{x₂}的子集，且其中的元素一一匹配，集合的大小为最终的匹配线的条数；

(4)把{x₁}’，{x₂}’作为最小二乘法的两组输入参数，可以得到拟合方程：x₂＝x₁*(1+s’)+d’，从而得到最终的伸缩率s’和偏移量d’。

本发明的效果在于：采用本发明所述的方法，可以在对表格或票据类文档进行计算机扫描录入时实现自动定向和定位，减少了人工作操，大大提高表格和票据类文档的录入精度和效率。

附图说明

图1是本发明所述方法的流程图；

图2是本发明所述容错匹配方法的流程图；

图3是待处理的表格样张；

图4是根据本发明所述方法转正后的表格图像。

具体实施方式

下面结合附图对本发明实施方式作进一步详细的描述。

图1列出了本发明各步方法的流程示意图，包括以下步骤：

1、图像预处理

先对数字化以后的原始表格图像(图3)按照常规的方法进行二值化和纠斜操作。本实施过程中使用大津法进行二值化，纠斜则使用投影图的方式查找连续线段最高峰，使用Hough变换搜索倾斜角度；

2、从待识别表格图像中提取竖直线和水平线的位置信息，可以使用投影图的方式，查找连续线段最高峰的位置，分别得到待识别表格线的位置集合{x_i}和{y_i}；

3、事先统计好同一表格类型的竖直和水平线系列的位置信息{X_i}和{Y_i}，把待识别表格的两个坐标方向的线系列与已知表格两个坐标方向的线系列按四个旋转方向(0度，90度，180度，270度)进行考虑伸缩的容错匹配。每个方向的容错匹配的流程如图2所示；

每个旋转方向的容错匹配一般需要进行两次，即水平和垂直。具体来说，就是：

a)不旋转：{X_i}和{Y_i}分别与{x_i}和{y_i}进行正向匹配；

所谓的反向匹配是，事先对两个匹配待匹配线系列中其中一个进行反向变换：x’＝W-x.W为任意常数。一般可以取表格图像在该方向的宽度，这种情况下，反向变换后的坐标含义变成从图像的对边开始计算的线的坐标位置。变换完成后，进行正向匹配。

所谓的容错匹配是给定两组坐标(即线的位置)，给定容错范围，进行自动匹配，检查两组线是否相符。需要处理好以下的情况：

a)要匹配的两组坐标中可能存在干扰线，也可能存在缺线

b)两组线的坐标零点不同，存在偏移

c)两组线还可能存在一定的拉伸

d)每一条线的位置可能存在一定偏离(有线宽不一致等的影响)

容错匹配最后需要计算出匹配成功时，两组线的最可几的偏移量和缩放比例。为了处理好以上的情况，设定容错匹配的条件参数：

a)允许的两组线的偏移量范围(可以不作限制)，在该范围以外的匹配被拒绝；

b)最小的匹配的线数(可以不作限制)；

c)允许的最大伸缩比例[s_min，s_max]；

d)两条线匹配时，最大允许距离c；

在处理伸缩匹配时，先设定的最大搜索伸缩比例范围区间[s_min，s_max]，该区间表示待匹配图像与已知表格图像的最小和最大缩放比，对于一般的扫描设备，按相同分辨率扫描时，该范围可以取[-5％，5％]。从s_min开始，按一定增量Δs(可以取1％，取得过于小会影响速度，适当取大是不会影响精度的)，依次对{x₁}或{x₂}中的元素x进行伸缩运算得到运算后系列{x’}的元素值：x‘＝(1+s)*x，伸缩变换只要对{x₁}或{x₂}中的一个进行变换，另外一个不需要变换，下面假设对变化对{x₂}进行，并设伸缩变换后的线系列为{x₂’}。

对线系列{x₁}和{x₂’}按不考虑伸缩的容错匹配算法进行匹配，只要其中一次匹配成功(足够多线数匹配)，就可以看作伸缩容错匹配成功，记下此时的伸缩比例s和偏移值d的近似值。根据s和d的近似值对{x₁}和{x₂}进行挑选，对于一个{x₂}中的每一个元素x₂，计算其对应的x₁’值：x₁’＝x₂*(1+s)+d，在{x₁}中查找落在区间[x₁’-c，x₁’+c]中的元素，如果不存在这样的元素，则忽略该x₂，否则把对应的x₁和x₂选出；最后得到两个系列{x₁}’，{x₂}’分别为原{x₁}，{x₂}的子集，且其中的元素一一匹配。集合的大小为最终的匹配线的条数；再把选出的{x₁}’，{x₂}’作为最小二乘法的两组输入参数，可以得到拟合方程：x₂＝x₁*(1+s’)+d’。从而得到最终的伸缩率s’和偏移量d’。

在不考虑伸缩的容错匹配中，设待匹配的线系列为{x₁}和{x₂}。首先构建一个n₁*n₂的矩阵M，矩阵元素M(i，j)的值为x₁(i)-x₂(j)。(i＝1，2，..n₁，j＝1，2，..n₂)，可知矩阵元素的最大值为M_max＝x₁(n₁)-x₂(1)，最小值为M_min＝x₁(1)-x₂(n₁)；再构建一个一维数组V，项数为(M_max-M_min)/c，初值全部设为0，下标以0开始计；再遍历矩阵M，每项元素按公式计算索引值：k＝[M(i，j)-M_min]/d，把V(k)增加计数值1；遍历完成后，在数组V中查找最大值V_max及其下标值k_max。则V_max就是匹配线的条数，两组线的偏移量为：d＝k_max*c+M_min。当V_max和偏移量d满足预定的限制条件(条件a和条件b)时，认为该两组匹配成功。

在上面的不考虑伸缩的容错匹配中，矩阵M不需要实际构建，可以直接引用{x₁}和{x₂}的值，以节省内存开销。

对四个方向的容错匹配全部完成以后，在四个结果中，挑选一个最佳匹配结果(两个坐标方向的匹配线数最多，同时满足最低匹配线数的域值和其他的限制条件)的方向作为最终的表格的版面方向，对应水平和竖直线的位置偏移就是表格的在图中的位置(d_x，d_y)；同时还可以得到图像版面在两个坐标方向的拉伸比例(s_x，s_y)

4、对原始表格图像按照得到的结果进行旋转，使表格图像正向放置(如图4)，便于后面的自动版面分析和识别处理。也可以同时对二值化和纠斜之后的黑白图像同时进行旋转。

5、如果需要，还可以对图像按得到的偏移位置和伸缩比例进行平移和伸缩，以方便后面的去表格线的操作。

本实施例中，对658张实际的增值税票处理测试，其中452张为ADF方式扫描，其余206张为平板扫描，扫描的分辨率均为300dpi，伸缩比范围为[-3.6％，2.9％]。四个旋转方向随机选择，存在贯通的干扰直线的样张97张，其中部分为多条干扰线。另外有部分样张表格线出现扭曲(ADF扫描两侧进纸不均匀导致)。

增值税票的水平表格线为7条(包含边界线)，竖直表格线14条(包含边界线)。在容错参数设置上，设定的伸缩比范围为[-5％，5％]，最低匹配线数分别设为4条和8条，设定的最大匹配距离10个象素。

与文献“自动抽出填入表格信息的改进算法”中描述的现有技术方案对比结果如下表：

	定向正确率	定位成功率	定位误差(象素)	伸缩比例误差
	定向正确率	定位成功率	定位误差(象素)	伸缩比例误差	本发明方案	100％	100％	±4象素内	±0.4％
对比方案	无此能力	97％	±15象素内	±0.8％	本发明方案	100％	100％	±4象素内	±0.4％

由于现有技术没有定向能力，因此其定位和伸缩比计算在本发明方案定向后转正的图片上进行，对定位误差和伸缩比例误差统计在定位成功的样张上进行。两个方案使用相同的纠斜和二值化算法。

可见，本发明的定向准确率相当高，定位的成功率也很高。而定位误差和伸缩比率误差也明显优于现有技术。本发明定位成功率高的原因在于定位不单独依赖于某一个特定的表格线特征，而现有技术对于使用的特征存在干扰是出现较大的误差，甚至无法定位。

Claims

1.一种已知表格的版面自动定向和定位方法，包括以下步骤：

a)不旋转：{X_i}和{Y_i}分别与{x_i}和{y_i}进行正向匹配；

在上述步骤2中，所述正向匹配采用容错匹配方法，该方法能排除干扰线、缺线的影响，同时能计算出整体偏移量d，具体包括以下步骤：设待匹配的线系列为{x₁}和{x₂}，线的条数分别为n₁和n₂，{x₁}和{x₂}分别从小到大排列

(4)查找V中的最大值V_max及其下标值k_max，则V_max就是匹配线的条数，匹配时，偏移量d为k_max*c与M_min的和；

上述步骤3中所述的最佳匹配是指两个坐标方向的匹配线数最多，同时满足最低匹配线数的域值的匹配。

2.如权利要求1所述的一种已知表格的版面自动定向和定位方法，其特征是：在步骤2中，反向匹配时，需要对待匹配的两个线系列中的其中之一进行翻转，翻转是简单地对该系列线每个坐标值取负号，或者是在取负号后再加上任意一个平移常数，平移常数是图像在该方向的宽度，翻转后的匹配就是正向匹配。

3.如权利要求1所述的一种已知表格的版面自动定向和定位方法，其特征是：在步骤2中，正向匹配采用考虑伸缩的容错匹配方法，该方法能在图像存在整体拉伸或缩小时进行有效匹配，同时能计算出具体的伸缩比例s以及整体偏移量d，具体包括以下步骤：设待匹配的线系列为{x₁}，{x₂}

(2)对线系列{x₁}和{x₂’}按不考虑伸缩的容错匹配算法进行匹配，只要其中一次匹配成功，就看作伸缩容错匹配成功，记下此时的伸缩比例s和偏移值d；

(4)把{x₁}’，{x₂}’作为最小二乘法的两组输入参数，得到拟合方程：x₂＝x₁*(1+s’)+d’，从而得到最终的伸缩率s’和偏移量d’。