CN110472208A

CN110472208A - Pdf文档中表格解析的方法、系统、存储介质及电子设备

Info

Publication number: CN110472208A
Application number: CN201910560269.8A
Authority: CN
Inventors: 陆惠国
Original assignee: Shanghai Hengsheng Juyuan Data Service Co Ltd
Current assignee: Shanghai Hengsheng Juyuan Data Service Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-19

Abstract

本发明涉及PDF文档中表格解析的方法、系统、存储介质及电子设备，S1：对PDF文档中的绘图指令进行解析，获得线段；S2：根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据；S3：对表格数据进行校验，若表格格式错误，则进入步骤S4，若表格格式正确，则提取表格数据并进入步骤S5；S4：通过图像边缘检测算法对PDF文档进行解析，获得线段，然后进入步骤S2；S5：通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域，并在判定成功的区域中的文本块的排列位置，添加表格线得到表格数据，提取表格数据。通过使用本发明，大大提高了采集表格数据的效率，提高了准确性。

Description

PDF文档中表格解析的方法、系统、存储介质及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及PDF文档中表格解析的方法、系统、存储介质及电子设备。

背景技术

上市公司的公告以及研究报告一般都是PDF文件，我们需要从这些文件中取得数据录入数据库，这些数据往往在表格中。以前通过人工打开PDF文件，复制黏贴所需要的数据到录入系统，或者根据模版匹配，又或者通过PDF表格解析的方法提取表格数据。

手动进行录入的方法，一是费事费力，数据录入不能很及时，还容易出错。根据模版匹配的方法，该方法由于模版和PDF格式息息相关，需要配置很多模版，而且PDF来源我们无法控制，万一作者一改格式就会失效。

由于PDF文件记录的是最后显示的呈现形式，内部并没有表格的结构化数据，但是记录一系列的操作Operator，类似于记录一幅画是怎么画的，先在哪个位置画一条线，然后在哪里写了个字，通过PDF文件能解析出一些画线和文字的位置。目前较为常规的PDF表格解析，一般是通过解析表格线段，以及文字的特征来识别表格，表格线段解析遇到表格线缺失就会不成功；而文字特征常用于，较固定表格内容的表格解析，如已知部分行列的文本特征，通过文字位置，间距来判断特定格式表格，通用型有限。

发明内容

为解决上述问题，本发明提出一种PDF文档中表格解析的方法，目的在于获取PDF文档中的表格数据。本申请实施例还提供了相应的系统、存储介质及电子设备。

一种PDF文档中表格解析的方法，包括以下步骤：

S1：对PDF文档中的绘图指令进行解析，获得线段；

S2：根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据；

S3：对表格数据进行校验，若表格格式错误，则进入步骤S4，若表格格式正确，则提取表格数据并进入步骤S5；

S4：通过图像边缘检测算法对PDF文档进行解析，获得线段，然后进入步骤S2；

S5：通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域，并在判定成功的区域中的文本块的排列位置，添加表格线得到表格数据，提取表格数据。

优选的，所述根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据包括以下步骤：

S201：根据线段识别由线段所形成的单元格以及表格区域，得到表格线数据；

S202：根据每个单元格所对应的坐标，再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标；

S203：根据表格线数据和文本块得到表格数据。

优选的，所述根据线段识别由线段所形成的单元格以及表格区域包括以下步骤：

S2011：将所有线段分为水平线和垂直线，并按坐标排序，遍历所有水平线和垂直线，获取交点，建立交点和水平线、垂直线的对应关系；

S2012：按顺序遍历各个交点，若一交点一侧相邻的水平线与该交点一侧相邻的垂直线相交，则判断该水平线、垂直线以及该交点所在的水平线、垂直线所形成的区域是单元格；

S2013：将识别的单元格排序，遍历所有的单元格，合并相邻的单元格，直到所有相邻的单元格都合并，得到表格区域。

优选的，所述得到表格线数据之后还包括：对解析得到的得到表格线数据进行修正。

优选的，所述对解析得到的得到表格线数据进行修正包括：

建立网格系统，将各线段端点粘附到最近的网格端点，并将线段吸附到网格；

根据所有水平线和垂直线的交点，判断最外侧的交点是否是其中一线段的起点或者终点，若不是线段的起点和终点，则在该线段的起点或者终点添加线段。

优选的，所述根据线段识别由线段所形成的单元格以及表格区域还包括以下步骤：

S2014：对跨页的表格区域进行合并。

优选的，所述对跨页的表格区域进行合并包括：

去除PDF文档中的页眉和页脚，若一页的最后一个表格和下一页的第一个表格之间不存在其他的元素，且两个表格区域的宽度、列宽都能对应，则判断为跨页表格区域，并将上述两个表格区域进行合并。

优选的，所述对表格数据进行校验包括：对生成的表格进行格式校验，判断表格的行列是否相等，若相等，则表格格式正确，若不相等，则表格格式错误。

优选的，所述通过图像边缘检测算法对PDF文档进行解析，获得线段包括以下步骤：

S401：过滤绘图指令中渲染文字的指令，对处理后的PDF文档生成灰度图片；

S402：由左往右扫描灰度图片的所有像素，对每一列像素从上到下循环取点的灰度值和上一点比较，若灰度差大于设定阈值，则对应的像素点为某条水平线的开始，并记录下对应的坐标；向右查找相邻的像素与其上方像素的灰度差，直到某点与上一点灰度差未达到设定阈值，则对应的像素点为某条水平线的结束，记录对应的线段；

S403：由上往下扫描灰度图片的所有像素，对每一行像素从左到右循环取点的灰度值和上一点比较，若灰度差大于设定阈值，则对应的像素点为某条垂直线的开始，并记录下对应的坐标；向下查找相邻的像素与其左方像素的灰度差，直到某点与上一点灰度差未达到设定阈值，则对应的像素点为某条垂直线的结束，记录对应的线段。

优选的，所述在判定成功的区域中的文本块的排列位置，添加表格线包括：

S501：根据表格区域中的文本块及文本块对应的坐标，对文本块分割成文本块，并对所有的文本块排序；

S502：对表格区域内的文本块进行水平、垂直方向投影，选取文本块的最右端和最下端分别做垂直线和水平线。

一种PDF文档中表格解析的系统，包括：

指令解析单元，用于对PDF文档中的绘图指令进行解析，获得线段；

数据获取单元，用于根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据；

校验单元，对表格数据进行校验；

图像边缘解析单元，用于通过图像边缘检测算法对PDF文档进行解析，获得线段；

物体探测单元，用于通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域；

表格线添加单元，用于在判定成功的区域中的文本块的排列位置添加表格线；

第二数据获取单元，在判定成功的区域中得到表格数据。

优选的，所述第一数据获取单元包括：数据获取子单元，用于根据线段识别由线段所形成的单元格以及表格区域，得到表格线数据；根据每个单元格所对应的坐标，再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标；根据表格线数据和文本块得到表格数据。

优选的，所述根据线段识别由线段所形成的单元格以及表格区域包括：

将所有线段分为水平线和垂直线，并按坐标排序，遍历所有水平线和垂直线，获取交点，建立交点和水平线、垂直线的对应关系；

按顺序遍历各个交点，若一交点一侧相邻的水平线与该交点一侧相邻的垂直线相交，则判断该水平线、垂直线以及该交点所在的水平线、垂直线所形成的区域是单元格；

将识别的单元格排序，遍历所有的单元格，合并相邻的单元格，直到所有相邻的单元格都合并，得到表格区域。

优选的，所述第一数据获取单元还包括：修正单元，用于对解析得到的得到表格线数据进行修正。

优选的，所述对解析得到的得到表格线数据进行修正包括：

优选的，所述第一数据获取单元还包括：合并单元，用于对跨页的表格区域进行合并。

优选的，所述对跨页的表格区域进行合并包括：

优选的，所述通过图像边缘检测算法对PDF文档进行解析，获得线段包括：

过滤绘图指令中渲染文字的指令，对处理后的PDF文档生成灰度图片；

由左往右扫描灰度图片的所有像素，对每一列像素从上到下循环取点的灰度值和上一点比较，若灰度差大于设定阈值，则对应的像素点为某条水平线的开始，并记录下对应的坐标；向右查找相邻的像素与其上方像素的灰度差，直到某点与上一点灰度差未达到设定阈值，则对应的像素点为某条水平线的结束，记录对应的线段；

由上往下扫描灰度图片的所有像素，对每一行像素从左到右循环取点的灰度值和上一点比较，若灰度差大于设定阈值，则对应的像素点为某条垂直线的开始，并记录下对应的坐标；向下查找相邻的像素与其左方像素的灰度差，直到某点与上一点灰度差未达到设定阈值，则对应的像素点为某条垂直线的结束，记录对应的线段。

优选的，所述在判定成功的区域中的文本块的排列位置添加表格线包括：

根据表格区域中的文本块及文本块对应的坐标，对文本块分割成文本块，并对所有的文本块排序；

对表格区域内的文本块进行水平、垂直方向投影，选取文本块的最右端和最下端分别做垂直线和水平线。

一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述PDF文档中表格解析的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行所述PDF文档中表格解析的方法的步骤。

通过使用本发明，可以实现以下效果：

通过解析PDF文档中的绘图指令，获取表格数据；若表格格式错误，则图像边缘检测算法对PDF文档进行解析，获取表格数据；对于没有表格线的表格，则采用物体探测算法来探测PDF文档中表格，获取表格数据。本发明与现有人工处理PDF表格数据相比，大大提高了采集表格数据的效率，提高了准确性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例一的整体流程示意图；

图2是本发明实施例一中步骤S2的流程示意图；

图3是本发明实施例一中步骤S201的流程示意图；

图4是本发明实施例一中的单元格的示意图；

图5是本发明实施例一中表格的区域的示意图；

图6是本发明实施例一中修正前表格线的示意图；

图7是本发明实施例一中修正后表格线的示意图；

图8是本发明实施例一中HTML表格的示意图；

图9是本发明实施例一中步骤S4的流程示意图；

图10是本发明实施例一中没有表格线的表格的示意图；

图11是本发明实施例一中RPN网络的结构示意图；

图12是本发明实施例一中表格存在区域的示意图；

图13是本发明实施例一中步骤S5的流程示意图；

图14是本发明实施例一中补上表格线后的表格的示意图；

图15是本发明实施例二的整体结构示意图；

图16是本发明实施例二中第一数据获取单元的结构示意图；

图17是本发明实施例四的结构示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

本发明的基本思想是对于有完整表格线的表格，则通过对PDF文档中的绘图指令进行解析，获取表格数据；对于表格格式错误的表格，则通过图像边缘检测算法对PDF文档进行解析，获取表格数据；对于没有表格线的表格，则通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域，，并在判定成功的表格区域中的文本块排列位置补上表格线，形成有表格线的表格，最后再通过对PDF文档中的绘图指令进行解析，获取表格数据。

如图1所示，本发明实施例一提出一种PDF文档中表格解析识别的方法，包括以下步骤：

S1：对PDF文档中的绘图指令进行解析，获得线段；

由于PDF文档记录的是最后显示的呈现形式，内部并没有表格的结构化数据，但是PDF文档中记录有一系列的绘图指令。绘图指令记录整个PDF文档的建立过程，如：在什么位置画了一条线、在什么位置画一条线写了个字、在什么位置画了一个图形。通过对PDF文档中的绘图指令进行解析，找出对应画表格线的操作指令，就可以解析出画线的位置，找出对应写字的操作，就可以解析出写字的位置。

例如，通过解析PDF的绘图指令，可以解析出m(moveto)、l(lineto)以及(re)操作。m(moveto)操作指的是画笔移动到某个坐标；l(lineto)操作指的是画线到另外一个坐标。(re)操作指的是在某个坐标画矩形。

以下是PDF的绘图指令代码：

可以解析出其中的m(moveto)操作和l(lineto)操作。

以下是PDF的另一绘图指令代码：

可以解析出其中画矩形的(re)操作，并解析出起始点、长、宽。

如图2所示，步骤S2具体包括以下步骤：

S203：根据表格线数据和文本块得到表格数据。

如图3所示，上述步骤S201中，根据线段识别由线段所形成的单元格以及表格区域包括以下步骤：

通过对PDF文档中画表格线的操作指令进行解析，即可解析出所有表格线及其相应的坐标。表格线根据坐标可以分为水平线和垂直线。而每条表格线都有对应的函数表达式，通过数学计算可以得到该表格线与其他表格线的交点，每个交点都与这两条相交的水平线和垂直线相对应。

在一实施例中，若PDF文档中的表格数据缺少边缘数据，则解析得到的线段也将缺少水平线或者垂直线，因此需要对缺失的表格线进行补充。根据水平线和垂直线的交点，若该交点是其中一线段的起点或者终点，则说明该位置不缺少表格线；相反，若该交点不是其中一线段的起点和终点，则说明该位置缺少表格线，并添加对应的水平线或者垂直线。

如图4所示，在经历交点A时，交点A一侧相邻的水平线l₁与一侧相邻的垂直线l₂相交，由此可以判断交点A、B、C、D所形成的区域为封闭的，即单元格。若一交点一侧相邻的水平线与该交点一侧相邻的垂直线不相交，则说明不是单元格。对于水平线和垂直线相交判断的技术方案，在步骤S2011中已经详细说明。

表格的区域指的是表格的最大区域。结合图5，当单元格S₁-S₁₂如图排布，通过将所有相邻的单元格合并，从而得到表格的区域S。

在一实施例中，很多PDF文档中的表格区域是跨页的，如果将其作为两张表格来提取表格数据，则会造成数据的错误，因此在本实施例中，可以将跨页的表格区域进行合并。具体包括以下步骤：

S2014：对跨页的表格区域进行合并。

为避免PDF文档中页眉和页脚对判断的干扰，首先去除PDF文档中的页眉和页脚。若本页的最后一个表格和下一页的第一个表格之间不存在其他的元素，且两个表格的宽度、列宽都能对应，则判断为跨页表格，并将上述两个表格区域进行合并。其中，其他的元素为其他文字、图片等，而这些文字、图片同样可以通过对PDF文档中的绘图指令的解析来判断是否存在。

在一实施例中，通过步骤S1解析出的线段并不是标准的表格线。如图6所示，正常情况下的一条线段可能是由多条线段组成，甚至有些误差或者有些倾斜。我们需要在一定范围内，修正一些倾斜角度，把几乎水平或垂直的线段修正成水平线和垂直线、把有重叠的或几乎要碰到一起的接近线段组合成最长的线段。

为了更好的合并临近的线段，首先在整个页面建立一个网格系统，比如4点单位的网格，然后线段端点粘附到最近的网格端点，线段吸附到网格，对倾斜角度在一定范围的线段，矫正为水平或垂直线段，其他多余的线段丢弃，最终得到如图7所示的线段。

通过上述步骤S201，可以得到表格线数据。而通过PDF文档中的绘图指令可以解析得到各单元格矩形区域内的文本块及文本块对应的坐标。将文本块对应的坐标填入对应的单元格，即可得到得到类似如图8中的HTML表格。然后其他数据处理程序就可以先定位到表格数据，然后根据行列特征从结构化的HTML表格中取得相关数据进行进一步处理。

在获取表格数据之后，需要对生成的表格数据做校验。判断表格的行列是否相等，若行列相等，则说明表格格式正确，若行列不相等，则说明表格格式错误。在表格格式正确的情况下，说明通过步骤S1～S2已经获取了一定的表格数据。然后再提供人工智能机器视觉中的物体探测算法来实现没有表格线的表格数据的获取。若表格格式错误，则需要通过步骤S4来对表格线进行补齐，然后再获取表格数据。

如图9所示，通过图像边缘检测算法对PDF文档进行解析，获得线段包括以下步骤：

根据常理可知，线段的灰度值是高于线段区域外的灰度值。根据这一特点，在本实施例的步骤S402～S403中，通过对每个像素点与相邻的像素点的灰度值差来判断该像素点是否为线段的一部分。在扫描灰度图片的所有像素后，得到所有的水平线和垂直线。

在很多PDF文档中，有些表格会把表格数据中的表格线删除，只留下文本块，如图10所示，该图中的表格为没有表格线的表格。然而通过对PDF文档中的绘图指令进行解析，则无法获取对应的表格数据。在本实施例中，通过物体探测算法以及训练模型算法来得到最终的表格数据。

由于没有线段参考，因此只能从文字位置来判断，但是复杂布局又影响着通过文字位置判断，所以我们首先判断表格区域，然后在区域内解析表格。

表格在一定程度上可以作为一类物体，采用人工智能物体识别的方式对表格区域进行探测，如采用Faster RCNN、Object Detection模型等，得到表格可能存在的区域。如图10～12所示，首先，输入图片，经过卷积层Conv Layers的处理，得到卷积特征图FeatureMaps，然后区域候选网络RPN(Region Propose Network)对提取的卷积特征图进行处理后通过基于深度学习的分类器Classifier得到表格区域，RPN网络用于寻找可能包含物体objects的预定义数量的区域。

深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的训练过程包括：自下而上的非监督学习：从底层开始，一层一层的往顶层训练，分别得到各层参数；自上而下的监督学习，基于第一步的得到的各层参数进一步调整整个多层模型的参数，这一步是一个有监督的训练过程。通过大量数据样本的训练得到的模型，能够准确的判断出没有表格线的表格区域。

在正常情况下，在探测后的表格区域需要进行多种修正。若有探测范围相交，则可以通过物体探测算法判断的可能性以及包含范围进行取舍；若表格区域如果穿过了文本块，说明探测的表格区域可能发生偏移，通过平移和缩放范围，找到不和文本块相交的合适区域。

在表格区域判定之后，需要在判定成功的表格区域中的文本块排列位置补上表格线。如图13所示，具体包括以下步骤：

对该表格区域中的文字通过解析能够得到每个文字的坐标，根据文字坐标，粘连附近文字，形成文本块。而表格是由行列组成，对该表格区域所有文本块排序。对表格区域内文本块进行水平、垂直方向投影等手段，可以使X、Y轴方向形成有文字和无文字的区间，选取有文字区间的最右端和最下端分别做垂直线和水平线，得到如图14中所示的有表格线的表格数据。

实施例二

如图15所示，本发明实施例二提出一种PDF文档中表格解析的系统，包括：

第一数据获取单元，用于根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据；

校验单元，对表格数据进行校验；

物体探测单元，通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域；

第二数据获取单元，在判定成功的区域中得到表格数据。

首先，指令解析单元对PDF文档中的绘图指令进行解析，获得线段；第一数据获取单元根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据；校验单元对表格数据进行校验，若表格格式错误，则图像边缘解析单元通过图像边缘检测算法对PDF文档进行解析，获得线段；然后第一数据获取单元根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据；若表格格式正确，则提取表格数据；然后通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域，表格线添加单元在判定成功的区域中的文本块的排列位置添加表格线，第二数据获取单元在判定成功的区域中得到表格数据。

如图16所示，第一数据获取单元包括：数据获取子单元，用于根据线段识别由线段所形成的单元格以及表格区域，得到表格线数据；根据每个单元格所对应的坐标，再根据对绘图指令的解析得到各单元格矩形区域内的文本块及文本块对应的坐标；根据表格线数据和文本块得到表格数据。

其中，根据线段识别由线段所形成的单元格以及表格区域所采用的方案为：

作为本实施例的优选，第一数据获取单元还包括：修正单元，用于对解析得到的得到表格线数据进行修正。通过指令解析单元解析出的线段并不是标准的表格线。正常情况下的一条线段可能是由多条线段组成，甚至有些误差或者有些倾斜。我们需要在一定范围内，修正一些倾斜角度，把几乎水平或垂直的线段修正成水平线和垂直线、把有重叠的或几乎要碰到一起的接近线段组合成最长的线段。

在一实施例中，对解析得到的得到表格线数据进行修正所采用的方案为：

作为本实施例的优选，第一数据获取单元还包括：合并单元，用于对跨页的表格区域进行合并。在一实施例中，很多PDF文档中的表格区域是跨页的，如果将其作为两张表格来提取表格数据，则会造成数据的错误，因此在本实施例中，可以将跨页的表格区域进行合并。

在一实施例中，对跨页的表格区域进行合并所采用的方案为：

校验单元对表格数据进行校验所采用的方案为：

对生成的表格进行格式校验，判断表格的行列是否相等，若相等，则表格格式正确，若不相等，则表格格式错误。

图像边缘解析单元通过图像边缘检测算法对PDF文档进行解析，获得线段所采用的方案为：

物体探测单元通过基于深度学习的物体探测算法来探测PDF文档中无表格线的表格存在的区域的方案为：

首先，输入图片，经过卷积层Conv Layers的处理，得到卷积特征图Feature Maps，然后区域候选网络RPN(Region Propose Network)对提取的卷积特征图进行处理后通过基于深度学习的分类器Classifier得到表格区域，RPN网络用于寻找可能包含物体objects的预定义数量的区域。

表格线添加单元在判定成功的区域中的文本块的排列位置添加表格线的方案为：

对该表格区域中的文字通过解析能够得到每个文字的坐标，根据文字坐标，粘连附近文字，形成文本块。而表格是由行列组成，对该表格区域所有文本块排序。对表格区域内文本块进行水平、垂直方向投影等手段，可以使X、Y轴方向形成有文字和无文字的区间，选取有文字区间的最右端和最下端分别做垂直线和水平线，得到有表格线的表格数据。第二数据获取单元在判定成功的区域中得到表格数据。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

实施例三

本发明实施例三提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例中所述PDF文档中表格解析方法的步骤。PDF文档中表格解析的方法的具体步骤可参考前述实施例中关于上述表格解析各步骤的详细描述，此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

实施例四

本发明实施例四提供一种电子设备，该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中PDF文档中表格解析的方法的步骤。该PDF文档中表格解析的方法的步骤可参考前述方法实施例中的详细描述，此处不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

图17示出根据本公开示例实施方式中一种电子设备的示意图。例如，电子设备可以被提供为一服务器或客户端。参照图17，电子设备包括处理组件，其进一步包括一个或多个处理器，以及由存储器所代表的存储器资源，用于存储可由处理组件执行的指令，例如应用程序。存储器中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件被配置为执行指令，以执行上述方法。

电子设备还可以包括一个电源组件被配置为执行电子设备的电源管理，一个有线或无线网络接口被配置为将电子设备连接到网络，和一个输入输出(I/O)接口。电子设备可以操作基于存储在存储器的操作系统，例如Windows Server，Mac OSX，Unix、Linux，FreeBSD或类似。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.PDF文档中表格解析的方法，其特征在于，包括以下步骤：

S1：对PDF文档中的绘图指令进行解析，获得线段；

2.根据权利要求1所述的PDF文档中表格解析的方法，其特征在于，所述根据线段解析出表格及表格对应的位置，根据表格及表格对应的位置获取表格数据包括以下步骤：

S203：根据表格线数据和文本块得到表格数据。

3.根据权利要求2所述的PDF文档中表格解析的方法，其特征在于，所述根据线段识别由线段所形成的单元格以及表格区域包括以下步骤：

4.根据权利要求2所述的PDF文档中表格解析的方法，其特征在于，所述得到表格线数据之后还包括：对解析得到的得到表格线数据进行修正。

5.根据权利要求4所述的PDF文档中表格解析的方法，其特征在于，所述对解析得到的得到表格线数据进行修正包括：

6.根据权利要求3所述的PDF文档中表格解析的方法，其特征在于，所述根据线段识别由线段所形成的单元格以及表格区域还包括以下步骤：

S2014：对跨页的表格区域进行合并。

7.根据权利要求6所述的PDF文档中表格解析的方法，其特征在于，所述对跨页的表格区域进行合并包括：

8.根据权利要求1所述的PDF文档中表格解析的方法，其特征在于，所述对表格数据进行校验包括：对生成的表格进行格式校验，判断表格的行列是否相等，若相等，则表格格式正确，若不相等，则表格格式错误。

9.根据权利要求1所述的PDF文档中表格解析的方法，其特征在于，所述通过图像边缘检测算法对PDF文档进行解析，获得线段包括以下步骤：

10.根据权利要求1所述的PDF文档中表格解析的方法，其特征在于，所述在判定成功的区域中的文本块的排列位置，添加表格线包括：

11.一种PDF文档中表格解析的系统，其特征在于，包括：

校验单元，对表格数据进行校验；

第二数据获取单元，在判定成功的区域中得到表格数据。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至10任一项所述PDF文档中表格解析的方法的步骤。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行根据权利要求1至10任一项所述PDF文档中表格解析的方法的步骤。