CN112036294B

CN112036294B - 一种纸质表格结构自动识别的方法及装置

Info

Publication number: CN112036294B
Application number: CN202010882990.1A
Authority: CN
Inventors: 姚金龙; 程杰; 董仲舒; 谷晶中; 郑宏亮; 张阳光
Original assignee: Valley Network Polytron Technologies Inc
Current assignee: Valley Network Polytron Technologies Inc
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-08-25
Anticipated expiration: 2040-08-28
Also published as: CN112036294A

Abstract

本发明公开一种纸质表格结构自动识别的方法及装置，该方法包括：读取通过纸质表格转化的图片文件并转成灰度图，利用mser算法计算单个文字的平均宽度和高度像素值；对灰度图像进行二值化处理，生成img_bin；对img_bin分别进行水平和垂直方向的腐蚀操作、翻转处理、膨胀操作、翻转处理，得到水平和垂直方向处理后的图像；对二者进行逻辑与操作，获取所有交叉点并记录；对所有交叉点分别按行、按列进行排序和分组，并过滤掉无效交叉点；按照从上到下，从左到右的顺序，遍历交叉点，生成单元格集合。本发明的表格结构识别更准确、高效。

Description

一种纸质表格结构自动识别的方法及装置

技术领域

本发明属于图像处理技术领域，涉及实线、封闭的纸质表格结构自动识别，尤其涉及一种纸质表格结构自动识别的方法及装置。

背景技术

随着信息化的不断推进，各行各业都在进行着信息化的建设。有些信息化系统中需要把纸质表格数据录入到系统中，通常的处理方式是先把纸质表格拍照或者扫描成图片文件，然后通过表格识别处理，获取表格里的数据，但是由于拍照或扫描的设备不同，导致图像的分辨率不同，进而表格线条粗细不同、文字大小不同，另外还有图像中的表格线变形或者存在手写字体干扰等等，常常识别准确率不够，导致表格元素多检或漏检。

现有技术（如CN110751038A）大多针对PDF文档中的表格进行处理，此种场景下的表格大多规整，转成图像后的尺寸和现实尺寸相当，不像拍照或者扫描的纸质表格，尺寸会放大很多倍。现有技术中也有人提出来解决表格元素多检或漏检的方法，但是这些方法大多需要人为干预，需要根据实际表格的情况，人为设定参数来提高准确率。

发明内容

本发明针对由于拍照或扫描的设备不同，导致图像的分辨率不同，进而表格线条粗细不同、文字大小不同；图像中的表格线变形或者存在手写字体干扰等，使识别准确率不够，导致表格元素多检或漏检的问题，提出一种纸质表格结构自动识别的方法及装置，可以减少由于表格尺寸放大、表格线条变形或者其他干扰导致到漏检、多检表格元素的问题，减少人工参与，提高表格识别准确率。

为了实现上述目的，本发明采用以下技术方案：

一种纸质表格结构自动识别的方法，包括：

步骤1：读取通过纸质表格转化的图片文件并转成灰度图像，利用mser算法计算单个文字的平均宽度像素值word_width和平均高度像素值word_height；

步骤2：对灰度图像进行二值化处理，生成二值化图像img_bin；

步骤3：对img_bin依次进行水平腐蚀操作、翻转处理、水平膨胀操作、翻转处理，得到处理后的图像img_horizontal；

步骤4：对img_bin依次进行垂直腐蚀操作、翻转处理、垂直膨胀操作、翻转处理，得到处理后的图像img_vertical；

步骤5：对img_horizontal和img_vertical进行逻辑与操作，获取水平线和垂直线的所有交叉点list<point>并记录，每个交叉点用（x,y,w,h）记录，x和y分别为x轴和y轴的坐标，w和h分别为交叉点的宽和高；

步骤6：对所有交叉点分别按行、按列进行排序和分组，并过滤掉无效交叉点；

步骤7：按照从上到下，从左到右的顺序，遍历交叉点，生成单元格集合，代表表格结构。

进一步地，所述步骤3包括：

步骤3.1：应用大小为（1,2）的卷积核对二值化图像img_bin进行水平腐蚀操作，重复水平腐蚀操作word_width次，过滤掉低于word_width像素的水平线条；

步骤3.2：对图像进行翻转处理，再应用大小为（1,2）的卷积核对图像进行水平膨胀操作，重复word_width次水平膨胀操作恢复保留下来的水平线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_horizontal。

进一步地，所述步骤4包括：

步骤4.1：应用大小为（2,1）的卷积核对二值化图像img_bin进行垂直腐蚀操作，重复垂直腐蚀操作word_width次，过滤掉低于word_width像素的垂直线条；

步骤4.2：对图像进行翻转处理，再应用大小为（2,1）的卷积核对图像进行垂直膨胀操作，重复word_height次垂直膨胀操作恢复保留下来的垂直线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_vertical。

进一步地，所述步骤6中，对所有交叉点按行进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照y值进行排序得到list<point_y>；

遍历list<point_y>，计算当前点与前一个点的y轴差值，如果所述y轴差值小于等于2*h，则认为是同一行的点，前后两个点分成一组；如果所述y轴差值大于2*h并且小于word_height，则认为是干扰点丢弃掉当前点，同步在list<point_x>中丢弃掉相同的点；如果所述y轴差值大于word_height，则认为是另外一行的点，将当前点分到一个新组中；最终按照一行为一组的原则生成按行分组的交叉点集合list<list<point_y>>。

进一步地，所述步骤6中，对所有交叉点按列进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照x值进行排序得到list<point_x>；

遍历list<point_x>，计算当前点与前一个点的x轴差值，如果所述x轴差值小于等于2*w，则认为是同一列的点，前后两个点分成一组；如果所述x轴差值大于2*w并且小于word_width，则认为是干扰点丢弃掉当前点，同步在list<list<point_y>>中丢弃掉相同的点；如果所述x轴差值大于word_width，则认为是另外一列的点，将当前点分到一个新组中；最终按照一列为一组的原则生成按列分组的交叉点集合list<list<point_x>>。

进一步地，所述步骤7包括：

步骤7.1：遍历按行分组的交叉点集合list<list<point_y>>，按顺序取出交叉点point(x,y,w,h)，在按列分组的交叉点集合list<list<point_x>>中同步查找同一个点point(x,y,w,h)的位置；

步骤7.2：按行获取本行的下一个交叉点point_y_next(x,y,w,h)，如果点point_y_next(x,y,w,h)不存在，且list<list<point_y>>遍历未结束则转至步骤7.1继续执行；如果存在，则执行步骤7.4；

步骤7.3：按列获取本列的下一个交叉点point_x_next(x,y,w,h)，如果点point_x_next(x,y,w,h)不存在，且list<list<point_y>>遍历未结束则转至步骤7.1继续执行；如果存在，则执行步骤7.4；

步骤7.4：根据point_y_next(x,y,w,h)，point_x_next(x,y,w,h)计算出point(x,y,w,h)的对角点point_across(x,y,w,h)；然后以该4个点为顶点，分别判断是否存在4条边线，即上边线、左边线、下边线及右边线；其中，上边线为point(x,y,w,h)-point_y_next(x,y,w,h)，左边线为point(x,y,w,h)-point_x_next(x,y,w,h)，下边线为point_x_next(x,y,w,h)-point_across(x,y,w,h)，右边线为point_y_next(x,y,w,h)-point_across(x,y,w,h)；

步骤7.5：如果上边线或左边线不存在，且list<list<point_y>>遍历未结束则转至步骤7.1继续执行；如果下边线不存在，则转至步骤7.3继续执行；如果右边线不存在，则转至步骤7.2继续执行；如果4条边线都存在，则根据4个顶点的信息，按照4条边线的内边缘位置记录单元格信息rect(x1,y1,x2,y2)，其中x1和y1为单元格的左上角坐标，x2和y3为单元格的右下角坐标；

步骤7.6：遍历完交叉点集合list<list<point_y>>所有元素后，返回单元格集合list<rect(x1,y1,x2,y2)>，代表表格结构。

进一步地，所述步骤7.4中，判断是否存在4条边线，包括：

如果两个点组成的线段为水平线段，则计算两个点之间x值的差值，如果小于两个点组成的线段内的像素值的和，则认为上边线或下边线存在；

如果两个点组成的线段为垂直线段，则计算两个点之间y值的差值，如果小于两个点组成的线段内的像素值的和，则认为左边线或右边线存在。

一种纸质表格结构自动识别的装置，包括：

第一计算模块，用于读取通过纸质表格转化的图片文件并转成灰度图像，利用mser算法计算单个文字的平均宽度像素值word_width和平均高度像素值word_height；

二值化处理模块，用于对灰度图像进行二值化处理，生成二值化图像img_bin；

水平处理模块，用于对img_bin依次进行水平腐蚀操作、翻转处理、水平膨胀操作、翻转处理，得到处理后的图像img_horizontal；

垂直处理模块，用于对img_bin依次进行垂直腐蚀操作、翻转处理、垂直膨胀操作、翻转处理，得到处理后的图像img_vertical；

交叉点获取模块，用于对img_horizontal和img_vertical进行逻辑与操作，获取水平线和垂直线的所有交叉点list<point>并记录，每个交叉点用（x,y,w,h）记录，x和y分别为x轴和y轴的坐标，w和h分别为交叉点的宽和高；

交叉点处理模块，用于对所有交叉点分别按行、按列进行排序和分组，并过滤掉无效交叉点；

交叉点遍历模块，用于按照从上到下，从左到右的顺序，遍历交叉点，生成单元格集合，代表表格结构。

与现有技术相比，本发明具有的有益效果：

本发明针对由于拍照或扫描的设备不同，导致图像的分辨率不同，进而表格线条粗细不同、文字大小不同；图像中的表格线变形或者存在手写字体干扰等，使识别准确率不够，导致表格元素多检或漏检的问题，提出一种纸质表格结构自动识别的方法及装置，可以减少由于表格尺寸放大、表格线条变形或者其他干扰导致到漏检、多检表格元素的问题，减少人工参与，提高表格识别准确率。本发明通过计算获取表格中文字的平均尺寸，作为处理参数，进行后续的处理过程，适应性更强，表格结构识别更准确；运算过程简单、运算量小、识别更高效。

附图说明

图1为本发明实施例一种纸质表格结构自动识别的方法的基本流程图；

图2为本发明实施例一种纸质表格结构自动识别的方法的交叉点按行分组和过滤流程图；

图3为本发明实施例一种纸质表格结构自动识别的方法的交叉点按列分组和过滤流程图；

图4为本发明实施例一种纸质表格结构自动识别的方法的遍历交叉点、获取表格结构流程图；

图5为本发明实施例一种纸质表格结构自动识别的装置的结构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种纸质表格结构自动识别的方法，包括：

步骤S101：读取通过纸质表格转化的图片文件并转成灰度图像，利用mser算法计算单个文字的平均宽度像素值word_width和平均高度像素值word_height；具体地，可把纸质表格扫描或拍照成图片文件；

步骤S102：对灰度图像进行二值化处理，生成二值化图像img_bin；

步骤S103：对img_bin依次进行水平腐蚀操作、翻转处理、水平膨胀操作、翻转处理，得到处理后的图像img_horizontal；

步骤S104：对img_bin依次进行垂直腐蚀操作、翻转处理、垂直膨胀操作、翻转处理，得到处理后的图像img_vertical；

步骤S105：对img_horizontal和img_vertical进行逻辑与操作，获取水平线和垂直线的所有交叉点list<point>并记录，每个交叉点用（x,y,w,h）记录，x和y分别为x轴和y轴的坐标，w和h分别为交叉点的宽和高；

步骤S106：对所有交叉点分别按行、按列进行排序和分组，并过滤掉无效交叉点；

步骤S107：按照从上到下，从左到右的顺序，遍历交叉点，生成单元格集合，代表表格结构。

进一步地，在步骤S107之后，还可包括：

利用ocr识别单元格中的文字，以json格式返回。

进一步地，所述步骤S103包括：

步骤S103.1：应用大小为（1,2）的卷积核对二值化图像img_bin进行水平腐蚀操作，重复水平腐蚀操作word_width次，过滤掉低于word_width像素的水平线条；

步骤S103.2：对图像进行翻转处理，再应用大小为（1,2）的卷积核对图像进行水平膨胀操作，重复word_width次水平膨胀操作恢复保留下来的水平线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_horizontal。

进一步地，所述步骤S104包括：

步骤S104.1：应用大小为（2,1）的卷积核对二值化图像img_bin进行垂直腐蚀操作，重复垂直腐蚀操作word_width次，过滤掉低于word_width像素的垂直线条；

步骤S104.2：对图像进行翻转处理，再应用大小为（2,1）的卷积核对图像进行垂直膨胀操作，重复word_height次垂直膨胀操作恢复保留下来的垂直线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_vertical。

进一步地，如图2所示，所述步骤S106中，对所有交叉点按行进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照y值进行排序得到list<point_y>；

进一步地，如图3所示，所述步骤S106中，对所有交叉点按列进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照x值进行排序得到list<point_x>；

进一步地，如图4所示，所述步骤S107包括：

步骤S107.1：遍历按行分组的交叉点集合list<list<point_y>>，按顺序取出交叉点point(x,y,w,h)，在按列分组的交叉点集合list<list<point_x>>中同步查找同一个点point(x,y,w,h)的位置；

步骤S107.2：按行获取本行的下一个交叉点point_y_next(x,y,w,h)，如果点point_y_next(x,y,w,h)不存在，且list<list<point_y>>遍历未结束则转至步骤7.1继续执行；如果存在，则执行步骤S107.4；

步骤S107.3：按列获取本列的下一个交叉点point_x_next(x,y,w,h)，如果点point_x_next(x,y,w,h)不存在，且list<list<point_y>>遍历未结束则转至步骤7.1继续执行；如果存在，则执行步骤S107.4；

步骤S107.4：根据point_y_next(x,y,w,h)，point_x_next(x,y,w,h)计算出point(x,y,w,h)的对角点point_across(x,y,w,h)；然后以该4个点为顶点，分别判断是否存在4条边线，即上边线、左边线、下边线及右边线；其中，上边线为point(x,y,w,h)-point_y_next(x,y,w,h)，左边线为point(x,y,w,h)-point_x_next(x,y,w,h)，下边线为point_x_next(x,y,w,h)-point_across(x,y,w,h)，右边线为point_y_next(x,y,w,h)-point_across(x,y,w,h)；即point(x,y,w,h)和point_y_next(x,y,w,h)两点组成的线段为上边线，point(x,y,w,h)和point_x_next(x,y,w,h) 两点组成的线段为左边线，point_x_next(x,y,w,h)和point_across(x,y,w,h) 两点组成的线段为下边线，point_y_next(x,y,w,h)和point_across(x,y,w,h)两点组成的线段为右边线；

步骤S107.5：如果上边线或左边线不存在，且list<list<point_y>>遍历未结束则转至步骤S107.1继续执行；如果下边线不存在，则转至步骤S107.3继续执行；如果右边线不存在，则转至步骤S107.2继续执行；如果4条边线都存在，则根据4个顶点的信息，按照4条边线的内边缘位置记录单元格信息rect(x1,y1,x2,y2)，其中x1和y1为单元格的左上角坐标，x2和y3为单元格的右下角坐标；

步骤S107.6：遍历完交叉点集合list<list<point_y>>所有元素后，返回单元格集合list<rect(x1,y1,x2,y2)>，代表表格结构。

进一步地，所述步骤S107.4中，判断是否存在4条边线，包括：

具体地，通过计算point(x,y,w,h)和point_y_next(x,y,w,h)之间的x值的差值来判断是否存在上边线、即point(x,y,w,h)-point_y_next(x,y,w,h)，如果x值的差值小于两个点组成的线段的像素值的和，则认为point(x,y,w,h)-point_y_next(x,y,w,h)存在；通过计算point_x_next(x,y,w,h)和point_across(x,y,w,h)之间的x值的差值来判断是否存在下边线、即point_x_next(x,y,w,h)-point_across(x,y,w,h)，如果x值的差值小于两个点组成的线段的像素值的和，则认为point_x_next(x,y,w,h)-point_across(x,y,w,h)存在；

具体地，通过计算point(x,y,w,h)和point_x_next(x,y,w,h)之间的y值的差值来判断是否存在左边线、即point(x,y,w,h)-point_x_next(x,y,w,h)，如果y值的差值小于两个点组成的线段的像素值的和，则认为point(x,y,w,h)-point_x_next(x,y,w,h)存在；通过计算point_y_next(x,y,w,h)和point_across(x,y,w,h)之间的y值的差值来判断是否存在右边线、即point_y_next(x,y,w,h)-point_across(x,y,w,h)，如果y值的差值小于两个点组成的线段的像素值的和，则认为point_y_next(x,y,w,h)-point_across(x,y,w,h)存在。

在上述实施例的基础上，如图5所示，本发明还公开一种纸质表格结构自动识别的装置，包括：

第一计算模块201，用于读取通过纸质表格转化的图片文件并转成灰度图像，利用mser算法计算单个文字的平均宽度像素值word_width和平均高度像素值word_height；

二值化处理模块202，用于对灰度图像进行二值化处理，生成二值化图像img_bin；

水平处理模块203，用于对img_bin依次进行水平腐蚀操作、翻转处理、水平膨胀操作、翻转处理，得到处理后的图像img_horizontal；

垂直处理模块204，用于对img_bin依次进行垂直腐蚀操作、翻转处理、垂直膨胀操作、翻转处理，得到处理后的图像img_vertical；

交叉点获取模块205，用于对img_horizontal和img_vertical进行逻辑与操作，获取水平线和垂直线的所有交叉点list<point>并记录，每个交叉点用（x,y,w,h）记录，x和y分别为x轴和y轴的坐标，w和h分别为交叉点的宽和高；

交叉点处理模块206，用于对所有交叉点分别按行、按列进行排序和分组，并过滤掉无效交叉点；

交叉点遍历模块207，用于按照从上到下，从左到右的顺序，遍历交叉点，生成单元格集合，代表表格结构。

进一步地，还包括：

文字识别模块，用于利用ocr识别单元格中的文字，以json格式返回。

进一步地，所述水平处理模块203包括：

第一水平处理子模块，用于应用大小为（1,2）的卷积核对二值化图像img_bin进行水平腐蚀操作，重复水平腐蚀操作word_width次，过滤掉低于word_width像素的水平线条；

第二水平处理子模块，用于对图像进行翻转处理，再应用大小为（1,2）的卷积核对图像进行水平膨胀操作，重复word_width次水平膨胀操作恢复保留下来的水平线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_horizontal。

进一步地，所述垂直处理模块204包括：

第一垂直处理子模块，用于应用大小为（2,1）的卷积核对二值化图像img_bin进行垂直腐蚀操作，重复垂直腐蚀操作word_width次，过滤掉低于word_width像素的垂直线条；

第二垂直处理子模块，用于对图像进行翻转处理，再应用大小为（2,1）的卷积核对图像进行垂直膨胀操作，重复word_height次垂直膨胀操作恢复保留下来的垂直线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_vertical。

进一步地，所述交叉点处理模块206中，对所有交叉点按行进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照y值进行排序得到list<point_y>；

进一步地，所述交叉点处理模块206中，对所有交叉点按列进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照x值进行排序得到list<point_x>；

进一步地，所述交叉点遍历模块207包括：

主循环子模块，用于遍历按行分组的交叉点集合list<list<point_y>>，按顺序取出交叉点point(x,y,w,h)，在按列分组的交叉点集合list<list<point_x>>中同步查找同一个点point(x,y,w,h)的位置；

按行查找循环子模块，用于按行获取本行的下一个交叉点point_y_next(x,y,w,h)，如果点point_y_next(x,y,w,h)不存在，且list<list<point_y>>遍历未结束则转至主循环子模块继续执行；如果存在，则执行判断子模块；

按列查找循环子模块，用于按列获取本列的下一个交叉点point_x_next(x,y,w,h)，如果点point_x_next(x,y,w,h)不存在，且list<list<point_y>>遍历未结束则转至主循环子模块继续执行；如果存在，则执行判断子模块；

判断子模块，用于根据point_y_next(x,y,w,h)，point_x_next(x,y,w,h)计算出point(x,y,w,h)的对角点point_across(x,y,w,h)；然后以该4个点为顶点，分别判断是否存在4条边线，即上边线、左边线、下边线及右边线；其中，上边线为point(x,y,w,h)-point_y_next(x,y,w,h)，左边线为point(x,y,w,h)-point_x_next(x,y,w,h)，下边线为point_x_next(x,y,w,h)-point_across(x,y,w,h)，右边线为point_y_next(x,y,w,h)-point_across(x,y,w,h)；

跳转执行子模块，用于如果上边线或左边线不存在，且list<list<point_y>>遍历未结束则转至主循环子模块继续执行；如果下边线不存在，则转至按列查找循环子模块继续执行；如果右边线不存在，则转至按行查找循环子模块继续执行；如果4条边线都存在，则根据4个顶点的信息，按照4条边线的内边缘位置记录单元格信息rect(x1,y1,x2,y2)，其中x1和y1为单元格的左上角坐标，x2和y3为单元格的右下角坐标；

表格结构得出子模块，用于遍历完交叉点集合list<list<point_y>>所有元素后，返回单元格集合list<rect(x1,y1,x2,y2)>，代表表格结构。

进一步地，所述判断子模块中，判断是否存在4条边线，包括：

综上，本发明针对由于拍照或扫描的设备不同，导致图像的分辨率不同，进而表格线条粗细不同、文字大小不同；图像中的表格线变形或者存在手写字体干扰等，使识别准确率不够，导致表格元素多检或漏检的问题，提出一种纸质表格结构自动识别的方法及装置，可以减少由于表格尺寸放大、表格线条变形或者其他干扰导致到漏检、多检表格元素的问题，减少人工参与，提高表格识别准确率。本发明通过计算获取表格中文字的平均尺寸，作为处理参数，进行后续的处理过程，适应性更强，表格结构识别更准确；运算过程简单、运算量小、识别更高效。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种纸质表格结构自动识别的方法，其特征在于，包括：

步骤7：按照从上到下，从左到右的顺序，遍历交叉点，生成单元格集合，代表表格结构；

所述步骤3包括：

步骤3.2：对图像进行翻转处理，再应用大小为（1,2）的卷积核对图像进行水平膨胀操作，重复word_width次水平膨胀操作恢复保留下来的水平线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_horizontal；

所述步骤4包括：

步骤4.2：对图像进行翻转处理，再应用大小为（2,1）的卷积核对图像进行垂直膨胀操作，重复word_height次垂直膨胀操作恢复保留下来的垂直线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_vertical；

所述步骤6中，对所有交叉点按行进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照y值进行排序得到list<point_y>；

遍历list<point_y>，计算当前点与前一个点的y轴差值，如果所述y轴差值小于等于2*h，则认为是同一行的点，前后两个点分成一组；如果所述y轴差值大于2*h并且小于word_height，则认为是干扰点丢弃掉当前点，同步在list<point_x>中丢弃掉相同的点；如果所述y轴差值大于word_height，则认为是另外一行的点，将当前点分到一个新组中；最终按照一行为一组的原则生成按行分组的交叉点集合list<list<point_y>>；

所述步骤6中，对所有交叉点按列进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照x值进行排序得到list<point_x>；

2.根据权利要求1所述的一种纸质表格结构自动识别的方法，其特征在于，所述步骤7包括：

3.根据权利要求2所述的一种纸质表格结构自动识别的方法，其特征在于，所述步骤7.4中，判断是否存在4条边线，包括：

4.一种纸质表格结构自动识别的装置，其特征在于，包括：

交叉点遍历模块，用于按照从上到下，从左到右的顺序，遍历交叉点，生成单元格集合，代表表格结构；

所述水平处理模块包括：

第二水平处理子模块，用于对图像进行翻转处理，再应用大小为（1,2）的卷积核对图像进行水平膨胀操作，重复word_width次水平膨胀操作恢复保留下来的水平线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_horizontal；

所述垂直处理模块包括：

第二垂直处理子模块，用于对图像进行翻转处理，再应用大小为（2,1）的卷积核对图像进行垂直膨胀操作，重复word_height次垂直膨胀操作恢复保留下来的垂直线条到原来的尺寸，然后再对图像做翻转处理，得到处理后的图像img_vertical；

所述交叉点处理模块中，对所有交叉点按行进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照y值进行排序得到list<point_y>；

所述交叉点处理模块中，对所有交叉点按列进行排序和分组，并过滤掉无效交叉点，包括：

将list<point>按照x值进行排序得到list<point_x>；