CN112861603A

CN112861603A - 一种有限表格自动识别与解析方法

Info

Publication number: CN112861603A
Application number: CN202011494671.XA
Authority: CN
Inventors: 张贝贝; 郭仲穗; 郑浩然; 李虹岩; 邬凛; 魏嵬
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-05-28
Anticipated expiration: 2040-12-17
Also published as: CN112861603B

Abstract

本发明公开了一种有限表格自动识别与解析方法，具体按照以下步骤实施：步骤1、对表格进行筛选；步骤2、使用opencv库对筛选出的表格进行定位。先将所有的pdf文件转化为图片集合，再进行筛选定位，筛选过程分为了两部分，第一部分对一行以上的较大表格进行筛选，第二部分对只有一行或者左半部分只有一行的特殊情况进行筛选，防止只有一行的表格在第一部分因为面积过小而被删减，以及左半部分只有一行的表格在第一部分因为情况特殊而缺失部分信息，最后再将所有筛选出来的表格进行定位，输出。两次筛选过程，使得该发明具有可观的正确性，以及实用性。

Description

一种有限表格自动识别与解析方法

技术领域

本发明属于图像识别技术领域，涉及一种有限表格自动识别与解析方法。

背景技术

图像识别技术是人工智能的一个重要领域，它是立体视觉、运动分析、数据融合等实用技术的基础，在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域具有重要的应用价值。图片目标识别对行人、车牌、人脸等特征识别已经较为成熟。对文本的研究是建立在已有的文本上，对词义转换，词频统计等方面。

虽然目前研究已有对PDF文本表格信息处理等纯文字或者高度统一的弱图像分析，但是正确率，适用性等方面依然无法保证。人们在通讯交流、科学研究以及数据分析活动当中广泛采用着形形色色的表格，对于各种形态和结构的表格，实体关系建模需要考虑周全，深度学习在本项目上的应用也需要灵活多变。

发明内容

本发明的目的是提供一种有限表格自动识别与解析方法，具有对PDF 中的表格进行筛选定位，并将有效表格进行输出的特点。

本发明所采用的技术方案是，一种有限表格自动识别与解析方法，具体按照以下步骤实施：

步骤1、对表格进行筛选；

步骤2、使用opencv库对筛选出的表格进行定位。

步骤1具体按照以下步骤实施：

步骤1.1、输入原文档记为A，经过图片转换函数F(X)，将pdf文件A 转化成图片集B＝F(A)；

步骤1.2、利用灰度化和自适应阈值及二值化处理图片；

步骤1.3、通过腐蚀膨胀对处理后的图片进行筛选；

步骤1.4、使用opencv库二次进行筛选。

步骤1.2具体为：

先将图片集合B进行灰度化处理，找到阈值，再进行高斯滤波，最后用自适应阈值函数进行二值化处理，将图片集B中的图片转化为新的二值化图片集C＝M(B)。

步骤1.3具体为：

通过

在二值化图片集C的基础上，用长横条、长竖条进行操作，将图片分别化为全横线与全竖线，叠加后获取该图片所有的交点，然后提取出表格框中的各个交点，寻找出图像的轮廓，记录为

接着求出各个轮廓的面积，并对过小面积的轮廓利用条件H(x)进行排除，得到第一次筛选过后的目标图像M_p1＝H(D_p1)；

表达式为：

步骤1.3中

的i为所使用筛选算法的种类包括：腐蚀、寻找图像轮廓、对图像进行二进制“非”和图像轮廓面积计算，j为进行筛选的序数， n≥0。

步骤1.4针对的是只有一行和左半部分是一行的特殊表格，具体为：提取出表格框中的各个交点，寻找出图像的轮廓，记录为

接着求出各个轮廓的面积，并对过小面积的轮廓利用条件J(x)进行排除，得到第二次筛选过后的目标图像M_p2＝J(D_p2)；

表达式为：

步骤1具体按照以下步骤实施：

将文档记为A，按照固定的DPI，经过转化函数T(X)，将PDF转化为图片 B＝T(A)，再经过筛选函数F(X)，得到含有目标图像的图片C＝F(B)。表达式为：

所述固定的DPI为25。

步骤2具体按照以下步骤实施：

步骤2.1、通过

在步骤1的基础上分别进行定位，第一次进行定位，首先用矩形去包围各个轮廓，即可得到该表格图片中各个矩形框的位置数据，之后遍历整个图像轮廓，用尺寸数据对矩形框进行筛选即可得到表格中所需的框的集合，记录为：

表达式为：

步骤2.2、第二次进行特殊表格的定位，最终类表格的识别结果集合，记录为：

表达式为：

当遍历完所有二值化图片集合C时，即可得到所需要的所有有线表格的图片集合Ar_q＝Ar_q1+Ar_q2

步骤2.1中

的i为所使用定位算法的种类包括：寻找图像轮廓和计算垂直边界最小矩形，j为进行定位的次数，n≥0。

本发明的有益效果是：

本方法在具体操作时，先将所有的pdf文件转化为图片集合，再进行筛选定位，筛选过程分为了两部分，第一部分对一行以上的较大表格进行筛选，第二部分对只有一行或者左半部分只有一行的特殊情况进行筛选，防止只有一行的表格在第一部分因为面积过小而被删减，以及左半部分只有一行的表格在第一部分因为情况特殊而缺失部分信息，最后再将所有筛选出来的表格进行定位，输出。两次筛选过程，使得该发明具有可观的正确性，以及实用性。

附图说明

图1是本发明有限表格自动识别与解析方法中方法一筛选表格的流程图；

图2是本发明有限表格自动识别与解析方法中方法二筛选表格的流程图；

图3是本发明有限表格自动识别与解析方法中定位表格的流程图；

图4是本发明有限表格自动识别与解析方法中缩放大小识别目标时每 1000张识别错误数随图片清晰度和训练集大小变化的三维曲面图；

图5是本发明有限表格自动识别与解析方法中缩放大小识别目标时每 1000张识别错误数随图片清晰度和训练集大小变化的散点图；

图6是本发明有限表格自动识别与解析方法中缩放大小识别目标时每 1000张识别错误数随图片清晰度和训练集大小变化的等高线图；

图7是本发明有限表格自动识别与解析方法中的系统流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图7所示，一种有限表格自动识别与解析方法，具体按照以下步骤实施：

步骤1、对表格进行筛选；

步骤2、使用opencv库对筛选出的表格进行定位。

如图1所示，步骤1具体按照以下步骤实施：

步骤1.2、利用灰度化和自适应阈值及二值化处理图片；

步骤1.3、通过腐蚀膨胀对处理后的图片进行筛选；

步骤1.4、使用opencv库二次进行筛选。

步骤1.2具体为：

先将图片集合B进行灰度化处理，找到阈值，再进行高斯滤波，最后用自适应阈值函数进行二值化处理，将图片集B中的图片转化为新的二值化图片集C＝M(B)。每个像素位置处的二值化阈值不是固定不变的，而是由其周围邻域像素的分布来决定的，亮度较高的图像区域的二值化阈值通常会较高，而亮度低的图像区域的二值化阈值则会相适应的变小，且不同亮度、对比度、纹理的局部图像区域将会拥有相对应的局部二值化阈值，所以，用灰度化和利用阈值做二值化处理图片集，是为了在筛选部分提取轮廓时，防止矩形外部轮廓并未闭合而造成误差。

步骤1.3具体为：

通过

表达式为：

步骤1.3中

表达式为：

如图2所示，第二种筛选方式为：步骤1具体按照以下步骤实施，

所述固定的DPI为25。据观察发现，在PDF缩小的时候，文字等字符信息开始变得模糊，原有噪声影响减弱。而直线、表格等图像却会变得凸显起来。但如果PDF文档比例过小，会影响之后目标图像的定位，进而影响到准确率。

针对上述情况，在DPI不同大小下，对大量PDF文件进行测试，将PDF 按照固定的DPI转化成图片，转化出来的图片提取HOG特征，最后用SVM训练所有图片的特征得到模型。

根据样本数量的不同和DPI大小的不同，分别训练出若干模型。样本集中样本的数量分别为1000,1500，，，5000，以500递增。

样本的大小分别为2,4,6以2为步长递增。

经过实验结果分析可知，在同一个DPI下所训练的样本数递增时，正确率高，但是DPI递增时，同样样本数量下，正确率开始明显下降，25及以后就下降不明显，所以选DPI为25时进行样本的分类。

如图3所示，步骤2具体按照以下步骤实施：

步骤2.1、通过

表达式为：

表达式为：

当遍历完所有二值化图片集合C时，即可得到所需要的所有有线表格的图片集合Ar_q＝Ar_q1+Ar_q2。

步骤2.1中

图1中，每个节点分别表示自动化筛选目标表格的各个步骤，分别标记为：A,B,C,

M_p1，M_p2。两个图的五个节点之间的有向边表示为下一个步骤实现的方向，各条边上的标注为前后步骤实现的条件函数或者方法，其中，A→B的条件函数是F(x),B→C的条件函数是 M(x)，

的方法为

的方法为

的条件函数H(x)，

的条件函数J(x)。

图2中，每个节点分别表示自动化筛选目标表格的各个步骤，分别标记为：A,B,C。三个节点之间的有向边表示为下一个步骤实现的方向，各条边上的标注为前后步骤实现的条件函数或者方法，其中，A→B的条件函数是 T(x),B→C的条件函数是F(x)。

图3中，每个节点分别表示定位目标表格的步骤，分别标记为：M_p1，M_p2，

Ar_q。主要分为两次筛选定位，第一次为

利用opencv等方法，得到第一次定位后的表格信息，第二次同理，为

得到第二次定位后的表格信息，汇总两次结果，得到所有表格的信息为Ar_q。

图4、图5、图6是同一三维图像的不同展示，其中两个变量为：图像的清晰度和训练集的大小。在探索图像的大小对目标识别的影响时，缩放图片大小与不断调整训练集的大小来训练生产新的模型，测试模型的效果。