CN110348397A

CN110348397A - 一种电子表格的分割方法及利用该分割方法的ocr识别方法

Info

Publication number: CN110348397A
Application number: CN201910635261.3A
Authority: CN
Inventors: 杜志诚; 钟琴隆
Original assignee: Shandong Banner Information Co Ltd
Current assignee: Shandong Banner Information Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-18

Abstract

一种电子表格的分割方法及利用该分割方法的OCR识别方法，包括如下步骤：得到待分析表格对应的图片；对图片进行XY遍历，得到交点以及交点对应的交点信息，所述交点信息包括交点坐标信息以及交点种类信息；根据得到的交点进行表格拆分得到单元表格，所述单元表格的位置通过交叉布置的顶点确定，所述顶点位置通过交点信息中的交点坐标信息以及交点种类信息进行匹配确定。本申请使得其能够在一个交点数据冗余的前提下，筛选出有用的交点信息，由于预先在XY遍历阶段就完成了交点种类的区分，而此种区分可直接用于后续的表格的拆分，因此可以降低整个步骤的复杂程度，提高表格拆解的效率。

Description

一种电子表格的分割方法及利用该分割方法的OCR识别方法

技术领域

本申请涉及一种电子表格的分割方法及利用该分割方法的OCR识别方法。

背景技术

常见的表格OCR识别是通过识别横线、竖线，然后找到直线交点从而定位文字区域，针对格式复杂一些的表格往往需要具体问题具体分析，非常容易发生一些少线或者多线的情况，不论是少线或者多线都会影响整个扫描文件的分析，继续影响OCR的识别效果；且该种方式需要进行的识别工作量较大，需要对所有部分进行严格分析识别，在准确性堪忧的情况下识别效率却不高。

发明内容

为了解决上述问题，本申请提出了一种电子表格的分割方法及利用该分割方法的OCR识别方法，一方面本申请公开了一种电子表格的分割方法，包括如下步骤：得到待分析表格对应的图片；对图片进行XY遍历，得到交点以及交点对应的交点信息，所述交点信息包括交点坐标信息以及交点种类信息；根据得到的交点进行表格拆分得到单元表格，所述单元表格的位置通过交叉布置的顶点确定，所述顶点位置通过交点信息中的交点坐标信息以及交点种类信息进行匹配确定。本申请所说的表格是由若干长方形块，可以有少量的其他区块，但是对此种长方形块的识别能力会降低；现在大多数的识别软件是识别分隔线，但是识别分隔线时，对于XY遍历的速度和准确性要求非常高，但是速度和准确性的矛盾性使得通过分隔线进行图表的准备快速寻找成为了徒劳，本申请立意于交点的寻找，并且通过对交点进行类别上的区分，使得在一个尽可能少的参数的情况下，得到一个准确的表格切分结果。需要说明的是，此处的长方形块需要做广义理解，其是由连续的长方形块组成的区域即可，因此该方法可以用于图像处理方面，如平面设计中的带有大量长方形块组成的图像、建筑设计中房屋的立面图等，都能利用本申请所述的方法进行切割，将长方形块切割出来。

优选的，所述交点种类包括起点类和终点类。本申请通过将起点类和终点类的分离，使得其能够在一个交点数据冗余的前提下，筛选出有用的交点信息，由于预先在XY遍历阶段就完成了交点种类的区分，而此种区分可直接用于后续的表格的拆分，因此可以降低整个步骤的复杂程度，提高表格拆解的效率。

优选的，所述交点种类信息为所述交点是否可以做左上方顶点和右下方顶点的信息；所述起点类包括形状为“┍、┯、├、┼”的交点；所述终点类包括形状为“┛、┷、┤、┼”的交点。起点类与终点类是通过交点不同的形态以及表格进行拆分的方法来进行的区分，需要说明的是，并不排除将同一个起点既归属于起点又归属于终点。

优选的，所述表格拆分包括如下步骤：根据XY遍历得到所有的交点，以大致处在同一水平线形成的交点形成横向交点集合，所述横向交点集合按照从上向下排列形成整体交点集合，所述水平线以及上下左右的方向依据所述图片确定；基于整体交点集合，按照从左到右，从上到下的顺序，以所述交点信息中交点种类为起点类的交点作为第一基点，然后以确定的第一基点作为左上方顶点，寻找下一行交点对应的横向交点集合中与第一基点配合设置且位于第一基点右侧的交点，所述交点为位于第一基点右侧的第一个交点，若所确定的第一个交点的种类不是终点类，则继续从排除掉的交点的下方的横向交点集合寻找，直至找到符合要求的交点，即为第二基点，所述第二基点作为右下方顶点。

优选的，所述交点种类信息为所述交点是否可以做左下方顶点和右上方顶点的信息；所述起点类包括形状为“└、┷、├、┼”的交点；所述终点类包括形状为“┐、┯、┤、┼”的交点。起点类与终点类是通过交点不同的形态以及表格进行拆分的方法来进行的区分，需要说明的是，并不排除将同一个起点既归属于起点又归属于终点。

优选的，所述表格拆分包括如下步骤：根据XY遍历得到所有的交点，以大致处在同一水平线形成的交点形成横向交点集合，所述横向交点集合按照从上向下排列形成整体交点集合，所述水平线以及上下左右的方向依据所述图片确定；基于整体交点集合，按照从左到右，从下到上的顺序，以所述交点信息中交点种类为起点类的交点作为第一基点，然后以确定的第一基点作为左下方顶点，寻找上一行交点对应的横向交点集合中与第一基点配合设置且位于第一基点右侧的交点，所述交点为位于第一基点右侧的第一个交点，若所确定的第一个交点的种类不是终点类，则继续从排除掉的交点的上方的横向交点集合寻找，直至找到符合要求的交点，即为第二基点，所述第二基点作为右上方顶点。

优选的，所述交点种类还包括外角类，所述外角类用于确定表格的区域。通过外角类的交点的参与，能够第一时间确定准备的定位待分析区域，从而得到更加优化和迅速的分析结果。当然，需要说明的是，并不排除将同一个起点既归属于起点又归属于终点。

优选的，所述交点按照如下方式得到：对图片进行缩放以及表格区域切割得到含有待处理电子表格的待分析图片，然后对待分析图片进行XY遍历，发现一个点的灰度值小于灰度阈值时，则对其上下左右以指定长度进行等间隔取点并测定各个点的灰度值，统计得到的灰度值小于阈值的点的数量，若非同一直线方向上统计数量有不少于两个数量高于交点阈值，即为交点；在两交点距离过近时，保留统计数量较多的点。

另一方面，本申请还公开了一种OCR识别方法，包括如下步骤：获取待分析的文档对应的图片；对图片进行分析得到待分析表格的区域，对非待分析表格的区域进行OCR识别得到文档区目标文字；对确定的区域进行表格拆分得到单元表格；对得到的单元表格进行OCR识别得到目标表格；将目标表格和文档区目标文字进行重排得到目标文档。本申请通过对文档对应的图片进行表格以及文字的区分得到两种不同的区域，然后利用区域的不同进行属性进行不同

优选的，所述目标表格是通过将各个单元表格OCR识别的结果填入到利用交点信息重绘的表格内得到。

本申请能够带来如下有益效果：

1、本申请立意于交点的寻找，并且通过对交点进行类别上的区分，使得在依靠尽可能少的参数的情况下，得到一个准确的表格切分结果；

2、本申请通过将起点类和终点类的分离，使得其能够在一个交点数据冗余的前提下，筛选出有用的交点信息，由于预先在XY遍历阶段就完成了交点种类的区分，而此种区分可直接用于后续的表格的拆分，因此可以降低整个步骤的复杂程度，提高表格拆解的效率；

3、本申请的起点类与终点类是通过交点不同的形态以及表格进行拆分的方法来进行的区分，需要说明的是，并不排除将同一个起点既归属于起点又归属于终点的情况，双重属性的特性有利于加快表格处理的效率和准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的电子表格分割的流程示意图；

图2为本申请一个实施例的示意图；

图3为本申请另一个实施例的示意图；

图4为本申请基于外角类进行边界划分的示意图；

图5为OCR识别方法的流程示意图；

图6为文档的布局示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本申请进行详细阐述。

在第一个实施例中，如图1所示，首先得到待分析表格对应的图片，然后对图片进行XY遍历，遍历之后可以确定交点信息，所述交点信息包括交点坐标信息以及交点种类信息，然后根据交点信息对于表格进行拆分，拆分之后可以得到单元表格，拆分方式按照单元表格的位置通过交叉布置的顶点确定，再对顶点利用交点信息进行逐个匹配，使得各个单元表格的交叉布置的顶点对应到交点，最终即得到拆分的电子表格，得到各个分离的单元表格，然后对单独的单元表格进行OCR文字识别即可；当然若对于一些建筑设计图进行“表格拆分”，则不需要OCR识别，将其拆分之后进行计数或者其他需要的处理即可。

在第二个实施例中，本实施例是基于左上方顶点和右下方顶点进行表格的拆分，在此种情形下，只需找到所有的如下类型的交点：起点类包括“┍、┯、├、┼”；终点类包括“┛、┷、┤、┼”。对于一个表格的交点类型进行如下定义，交点按照如下形式表征(x，y，ab)，其中，xy表示坐标位置，若交点可以作为左上方顶点，则a＝1，否则a＝0；若交点可以作为右下方顶点，则b＝1，否则b＝0。经过XY遍历之后，需要说明的是，在处理过程中，是按照如下方式进行的，需要说明的是遍历寻找交点的方式并不限于如下方式，也可是其他可以执行的交点寻找方式：对图片进行缩放以及表格区域切割得到含有待处理电子表格的待分析图片，然后对待分析图片进行XY遍历，发现一个点的灰度值小于灰度阈值时，则对其上下左右以指定长度进行等间隔取点并测定各个点的灰度值，统计得到的灰度值小于阈值的点的数量，若非同一直线方向上统计数量有不少于两个数量高于交点阈值，即为交点；此处的交点阈值可以根据清晰度设定为不小于0的任何整数，而对于灰度阈值一般可设定为200，但是可以根据实际情况进行调节；在确定交点时，可以确定xy的坐标，并且根据其形状对ab进行赋值，┍、┯、├、┼则将a赋值1，否则赋值0；如果是┛、┷、┤、┼，则b赋值1，否则赋值0。按照上述方式处理之后，可以得到一个如图2所示的表格，从该表格可以提炼出来如下数组

在此情况下，表格拆分按照如下形式进行，首先是确定a＝1，即可以作为左上方顶点的交点，(1,5,10)满足要求，作为第一基点，按照图1方式，然后从下一行且从其右侧，即x＞1，y＝4中寻找第二基点，即能确定(2,4,11)满足要求，然后得到此待OCR识别的表格，从而得到(1,5,10)与(2,4,11)形成一个单元表格，其他表格如此往复即能得到。但的确存在一些特殊情况，如(3,5,10)，其按照上述规则寻找到的下一个交点为(4,4,10)，但是其只能作为终点，因此越过改点，从下一行寻找，寻找到交点(4,3,11)满足上述要求，形成(3,5,10)与(4,3,11)组成的表格。实质上，该要求执行的是寻找与第一基点对应设置的第二基点时，若下一行寻找到的右侧第一个交点若不满足，其他交点必然不满足，即可到下一行去寻找符合要求的交点。

在第三个实施例中，本实施例是基于左下方顶点和右上方顶点进行表格的拆分，在此种情形下，只需找到所有的如下类型的交点：起点类包括“└、┷、├、┼”；终点类包括“┐、┯、┤、┼”。对于一个表格的交点类型进行如下定义，交点按照如下形式表征(x，y，ab)，其中，xy表示坐标位置，若交点可以作为左下方顶点，则a＝1，否则a＝0；若交点可以作为右上方顶点，则b＝1，否则b＝0。经过XY遍历之后，需要说明的是，在处理过程中，是按照如下方式进行的，需要说明的是遍历寻找交点的方式并不限于如下方式，也可是其他可以执行的交点寻找方式：对图片进行缩放以及表格区域切割得到含有待处理电子表格的待分析图片，然后对待分析图片进行XY遍历，发现一个点的灰度值小于灰度阈值时，则对其上下左右以指定长度进行等间隔取点并测定各个点的灰度值，统计得到的灰度值小于阈值的点的数量，若非同一直线方向上统计数量有不少于两个数量高于交点阈值，即为交点；此处的交点阈值可以根据清晰度设定为不小于0的任何整数，而对于灰度阈值一般可设定为200，但是可以根据实际情况进行调节；在确定交点时，可以确定xy的坐标，并且根据其形状对ab进行赋值，└、┷、├、┼则将a赋值1，否则赋值0；如果是┐、┯、┤、┼，则b赋值1，否则赋值0。按照上述方式处理之后，可以得到一个如图3所示的表格，从该表格可以提炼出来如下数组

在此情况下，表格拆分按照如下形式进行，首先是确定a＝1，即可以作为左下方顶点的交点，(1,4,10)满足要求，作为第一基点，按照既定方式，然后从上一行且从其右侧，即x＞1，y＝5中寻找第二基点，即能确定(2,5,01)满足要求，然后得到此待OCR识别的表格，从而得到(1,4,10)与(2,5,01)形成一个单元表格，其他表格如此往复即能得到。但的确存在一些特殊情况，如(3,3,10)，其按照上述规则寻找到的下一个交点为(4,4,10)，但是其只能作为起点，因此直接从上一行寻找，因此寻找到(4,5,01)，满足要求，形成(3,5,10)与(4,5,01)的表格，实质上，该要求执行的是寻找与第一基点对应设置的第二基点时，若上一行寻找到的右侧第一个交点若不满足，其他交点必然不满足，即可到上一行去寻找符合要求的交点。

需要说明的是，第二个实施例和第三例实施例所对应的单元格拆分方法可以并行使用，以得到一个更加准确的分析结果，并且能提高其对于不同表格拆分的适应能力。

在第四个实施例中，本实施例是先确定表格边界，同样本实施例也是基于左上方顶点和右下方顶点进行表格的拆分，在此种情形下，只需找到所有的如下类型的交点：外角类包括“┍、┛、┗、┛”，起点类包括“┍、┯、├、┼”；终点类包括“┛、┷、┤、┼”。对于一个表格的交点类型进行如下定义，交点按照如下形式表征(x，y，abc)，其中，xy表示坐标位置，若交点可以作为左上方顶点，则a＝1，否则a＝0；若交点可以作为右下方顶点，则b＝1，否则b＝0；若为外角类则c＝1，否则c＝0。经过XY遍历之后，需要说明的是，在处理过程中，是按照如下方式进行的，需要说明的是遍历寻找交点的方式并不限于如下方式，也可是其他可以执行的交点寻找方式：对图片进行缩放以及表格区域切割得到含有待处理电子表格的待分析图片，然后对待分析图片进行XY遍历，发现一个点的灰度值小于灰度阈值时，则对其上下左右以指定长度进行等间隔取点并测定各个点的灰度值，统计得到的灰度值小于阈值的点的数量，若非同一直线方向上统计数量有不少于两个数量高于交点阈值，即为交点；此处的交点阈值可以根据清晰度设定为不小于0的任何整数，而对于灰度阈值一般可设定为200，但是可以根据实际情况进行调节；在确定交点时，可以确定xy的坐标，并且根据其形状对ab进行赋值，┍、┯、├、┼则将a赋值1，否则赋值0；如果是┛、┷、┤、┼，则b赋值1，否则赋值0。按照上述方式处理之后，可以得到一个如图4所示的表格，从该表格可以提炼出来如下数组

由于本实施例基于一个标准表格，所以所有的交点(1,5,101)、(5,5,001)、(1,1,001)以及(5,1,011)的形成的平面的范围内(基于xy坐标)，若有不在该范围内的交点，则可以删除。然后，表格拆分按照如下形式进行，首先是确定a＝1，即可以作为左上方顶点的交点，(1,5,101)满足要求，作为第一基点，按照图1方式，然后从下一行且从其右侧，即x＞1，y＝4中寻找第二基点，即能确定(2,4,110)满足要求，然后得到此待OCR识别的表格，从而得到(1,5,101)与(2,4,110)形成一个单元表格，其他表格如此往复即能得到。但的确存在一些特殊情况，如(3,5,100)，其按照上述规则寻找到的下一个交点为(4,4,100)，但是其只能作为终点，因此越过改点，从下一行寻找，寻找到交点(4,3,110)满足上述要求，形成(3,5,100)与(4,3,110)组成的表格。实质上，该要求执行的是寻找与第一基点对应设置的第二基点时，若下一行寻找到的右侧第一个交点若不满足，其他交点必然不满足，即可到下一行去寻找符合要求的交点。

在第五个实施例中，在实施例1-实施例4的基础上，如图5所示，按照下列步骤进行，获取待分析的文档对应的图片，如图6所示，可以看出其分为了三个区域，分别为纯文字的A文字区、B文字区以及C表格区；对图片通过轮廓检测等方式(如opencv中的findcounter函数等)得到待分析表格的区域以及非待分析表格的区域(即文档区)，对非待分析表格的区域进行OCR识别得到文档区目标文字，即将A文字区、B文字区进行文字识别分别得到A文档区目标文字以及B文字区目标文字，并且将C表格区隔离出来；对确定的区域，即C表格区，进行表格拆分得到单元表格，即将C表格区进行拆分得到单元表格，这需要用到实施例1-4中的技术；对得到的单元表格进行OCR识别得到目标表格，当然此处需要重新进行表格的组合，可以按照既定的xy坐标也可以通过预先绘制表格的形式；将目标表格和文档区目标文字进行重排得到目标文档。

可以理解的，所述目标表格是通过将各个单元表格OCR识别的结果填入到利用交点信息重绘的表格内得到。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种电子表格的分割方法，其特征在于：包括如下步骤：

得到待分析表格对应的图片；

对图片进行XY遍历，得到交点以及交点对应的交点信息，所述交点信息包括交点坐标信息以及交点种类信息；

根据得到的交点进行表格拆分得到单元表格，所述单元表格的位置通过交叉布置的顶点确定，所述顶点位置通过交点信息中的交点坐标信息以及交点种类信息进行匹配确定。

2.根据权利要求1所述的一种电子表格的分割方法，其特征在于：所述交点种类包括起点类和终点类。

3.根据权利要求2所述的一种电子表格的分割方法，其特征在于：所述交点种类信息为所述交点是否可以做左上方顶点和右下方顶点的信息；所述起点类包括形状为“┍、┯、├、┼”的交点；所述终点类包括形状为“┛、┷、┤、┼”的交点。

4.根据权利要求3所述的一种电子表格的分割方法，其特征在于：所述表格拆分包括如下步骤：根据XY遍历得到所有的交点，以大致处在同一水平线形成的交点形成横向交点集合，所述横向交点集合按照从上向下排列形成整体交点集合，所述水平线以及上下左右的方向依据所述图片确定；基于整体交点集合，按照从左到右，从上到下的顺序，以所述交点信息中交点种类为起点类的交点作为第一基点，然后以确定的第一基点作为左上方顶点，寻找下一行交点对应的横向交点集合中与第一基点配合设置且位于第一基点右侧的交点，所述交点为位于第一基点右侧的第一个交点，若所确定的第一个交点的种类不是终点类，则继续从排除掉的交点的下方的横向交点集合寻找，直至找到符合要求的交点，即为第二基点，所述第二基点作为右下方顶点。

5.根据权利要求2所述的一种电子表格的分割方法，其特征在于：所述交点种类信息为所述交点是否可以做左下方顶点和右上方顶点的信息；所述起点类包括形状为“└、┷、├、┼”的交点；所述终点类包括形状为“┐、┯、┤、┼”的交点。

6.根据权利要求5所述的一种电子表格的分割方法，其特征在于：所述表格拆分包括如下步骤：根据XY遍历得到所有的交点，以大致处在同一水平线形成的交点形成横向交点集合，所述横向交点集合按照从上向下排列形成整体交点集合，所述水平线以及上下左右的方向依据所述图片确定；基于整体交点集合，按照从左到右，从下到上的顺序，以所述交点信息中交点种类为起点类的交点作为第一基点，然后以确定的第一基点作为左下方顶点，寻找上一行交点对应的横向交点集合中与第一基点配合设置且位于第一基点右侧的交点，所述交点为位于第一基点右侧的第一个交点，若所确定的第一个交点的种类不是终点类，则继续从排除掉的交点的上方的横向交点集合寻找，直至找到符合要求的交点，即为第二基点，所述第二基点作为右上方顶点。

7.根据权利要求1所述的一种电子表格的分割方法，其特征在于：所述交点种类还包括外角类，所述外角类用于确定表格的区域。

8.根据权利要求1所述的一种电子表格的分割方法，其特征在于：所述交点按照如下方式得到：对图片进行缩放以及表格区域切割得到含有待处理电子表格的待分析图片，然后对待分析图片进行XY遍历，发现一个点的灰度值小于灰度阈值时，则对其上下左右以指定长度进行等间隔取点并测定各个点的灰度值，统计得到的灰度值小于阈值的点的数量，若非同一直线方向上统计数量有不少于两个数量高于交点阈值，即为交点；在两交点距离过近时，保留统计数量较多的点。

9.一种用权利要求1-8任一所述的电子表格的分割方法的OCR识别方法，其特征在于：包括如下步骤：

获取待分析的文档对应的图片；

对图片进行分析得到待分析表格的区域，对非待分析表格的区域进行OCR识别得到文档区目标文字；

对确定的区域进行表格拆分得到单元表格；

对得到的单元表格进行OCR识别得到目标表格；

将目标表格和文档区目标文字进行重排得到目标文档。

10.根据权利要求9所述的一种OCR识别方法，其特征在于：所述目标表格是通过将各个单元表格OCR识别的结果填入到利用交点信息重绘的表格内得到。