CN113361257B

CN113361257B - Pdf文档解析方法、系统、电子装置及存储介质

Info

Publication number: CN113361257B
Application number: CN202110728281.2A
Authority: CN
Inventors: 李超; 朱昱锦; 徐亮
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-10-11
Anticipated expiration: 2041-06-29
Also published as: CN113361257A

Abstract

本申请涉及一种数据处理技术，揭露了一种PDF文档解析方法，包括：解析PDF文档得到当前页面表格区域各个表格的坐标值，存入第一列表；提取当前页面非表格区域的各个文本行的信息，存入第二列表；提取当前页面每一个表格中各个单元格的坐标值，存入第三列表，并构建所述表格对应的横坐标列表和纵坐标列表；根据第三列表、横坐标列表和纵坐标列表提取还原所述表格区域的信息，存入第二列表；将第二列表中的元素按照坐标值重新排序；根据预设条件合并第二列表中非表格区域的位置相邻的文本。本申请还提供一种PDF文档解析系统、电子装置及计算机可读存储介质。本申请能够同时解析PDF文档的表格区域和非表格区域，并提高解析结果的准确性。

Description

PDF文档解析方法、系统、电子装置及存储介质

技术领域

本申请涉及数据处理技术，尤其涉及一种PDF文档解析方法、系统、电子装置及计算机可读存储介质。

背景技术

目前，要解析PDF文档表格和非表格区域的文本信息并结构化输出，可以采用OCR(Optical Character Recognition，光学字符识别)技术，其识别准确率也较高。但由于需要先把PDF文档的每一页转成普通图片再识别，整体识别速度相对较慢，对于GPU资源要求也比较高，而GPU资源比CPU资源昂贵不少。同时也会产生大量临时图片文件，当有大量PDF需要处理时，对于硬盘空间要求也比较高。

因此，在服务器硬件资源有限的情况下，也可以利用一些开源PDF文档解析库。但是，现有的解析工具有的只能解析出PDF文档非表格区域的文本信息，但不支持表格的解析。有的对于表格区域的解析存在表格内各个单元格文字行坐标不准确、识别遗漏等问题。还有的只能对PDF文档的表格和非表格区域分别进行单独解析，但不能结构化输出完整信息。

发明内容

有鉴于此，本申请提出一种PDF文档解析方法、系统、电子装置及计算机可读存储介质，以解决如何同时解析PDF文档的表格区域和非表格区域，准确输出完整信息的技术问题。

首先，为实现上述目的，本申请提出一种PDF文档解析方法，该方法包括步骤：

解析PDF文档得到当前页面表格区域各个表格的坐标值，存入第一列表；

提取所述当前页面中非表格区域的各个文本行的信息，存入第二列表；

提取所述当前页面每一个所述表格中各个单元格的坐标值，存入第三列表，并构建所述表格对应的各个单元格的横坐标列表和纵坐标列表；

根据所述第三列表、所述横坐标列表和所述纵坐标列表提取还原所述表格区域的信息，存入所述第二列表；

将所述第二列表中的元素按照坐标值重新排序；及

根据预设条件合并所述第二列表中非表格区域的位置相邻的文本。

可选地，所述提取所述当前页面中非表格区域的各个文本行的信息，存入第二列表包括：

提取所述当前页面中所有文本行的坐标值和文本内容；

根据所述坐标值判断各个所述文本行是否落在表格区域；

将未落在表格区域的所述文本行的信息存入所述第二列表，所述信息包括所述文本行对应的类型、坐标值和文本内容。

可选地，所述根据所述坐标值判断各个所述文本行是否落在表格区域包括：

获取当前文本行的左上角坐标值和右下角坐标值；

判断所述当前文本行的左上角坐标值的横、纵坐标是否均大于或等于当前页面表格区域的左上角坐标值的横、纵坐标；

判断所述当前文本行的右下角坐标值的横、纵坐标是否均小于或等于当前页面表格区域的右下角坐标值的横、纵坐标；

当上述两个条件都满足时，确定所述当前文本行落在表格区域内，反之未落在表格区域内。

可选地，所述构建所述表格对应的各个单元格的横坐标列表和纵坐标列表包括：

遍历所述第三列表，获取里面每个坐标值，包括每个单元格区域左上角和右下角的横、纵坐标；

将所有横坐标添加到所述表格对应的所述横坐标列表，将所有纵坐标添加到所述表格对应的所述纵坐标列表，且分别将所述横坐标列表和所述纵坐标列表中重复的坐标进行合并；

按照坐标数值从小到大的顺序分别对所述横坐标列表和所述纵坐标列表中的元素重新排序。

可选地，所述根据所述第三列表、所述横坐标列表和所述纵坐标列表提取还原所述表格区域的信息，存入所述第二列表包括：

遍历所述第三列表，获取表格区域的文本内容；

从所述第三列表中获取每个单元格的左上角横坐标、左上角纵坐标、右下角横坐标、右下角纵坐标，分别记录每个坐标在所述横坐标列表和所述纵坐标列表中的索引序号，作为所述单元格的位置信息；

将每个所述单元格对应的类型、坐标值、文本内容以及单元格位置信息存入所述第二列表。

可选地，所述将所述第二列表中的元素按照坐标值重新排序包括：

依次取出所述第二列表中的元素并进行两两比较，包括：

分别计算第一元素中左上角横坐标和右下角横坐标的平均值及第二元素中左上角横坐标和右下角横坐标的平均值，记作第一横坐标平均值和第二横坐标平均值，以及第一元素中左上角纵坐标和右下角纵坐标的平均值及第二元素中左上角纵坐标和右下角纵坐标的平均值，记作第一纵坐标平均值和第二纵坐标平均值；

计算所述第一元素中右下角纵坐标和左上角纵坐标的差与所述第二元素中右下角纵坐标和左上角纵坐标的差的平均值，记作第一平均高度；

将所述第一纵坐标平均值和所述第二纵坐标平均值的差的绝对值与预设倍数的所述平均高度进行比较，若所述绝对值大于所述预设倍数的平均高度，则比较所述第一纵坐标平均值减所述第二纵坐标平均值的结果，若大于0则交换所述第一元素和所述第二元素在所述第二列表中的位置；

若所述绝对值小于等于所述预设倍数的平均高度，则比较所述第一横坐标平均值减所述第二横坐标平均值的结果，若大于0则交换所述第一元素和所述第二元素在所述第二列表中的位置。

可选地，所述根据预设条件合并所述第二列表中非表格区域的位置相邻的文本包括：

依次取出所述第二列表中的元素，当所述元素的类型为非表格时，进行两两比较，包括：

取出第三元素的坐标值，包括第三左上角横坐标、第三左上角纵坐标、第三右下角横坐标、第三右下角纵坐标，以及第四元素的坐标值，包括第四左上角横坐标、第四左上角纵坐标、第四右下角横坐标、第四右下角纵坐标；

计算所述第三右下角纵坐标、所述第四右下角纵坐标中的较大值和所述第三左上角纵坐标、所述第四左上角纵坐标中的较小值的差，记作最大高度；

计算所述第三右下角纵坐标、所述第四右下角纵坐标中的较小值和所述第三左上角纵坐标、所述第四左上角纵坐标中的较大值的差，记作最小高度；

计算所述第三右下角纵坐标和所述第三左上角纵坐标的差与所述第四右下角纵坐标和所述第四左上角纵坐标的差的平均值，记作第二平均高度；

计算所述第四左上角横坐标与所述第三右下角横坐标的差的绝对值，记作间隔距离；

比较所述最小高度与所述最大高度的比值是否大于预设阈值且所述间隔距离是否小于等于所述第二平均高度，若上述两个条件均满足，则合并所述第三元素和所述第四元素对应的两个文本。

此外，为实现上述目的，本申请还提供一种PDF文档解析系统，所述系统包括：

解析模块，用于解析PDF文档得到当前页面表格区域各个表格的坐标值，存入第一列表；

提取模块，用于提取所述当前页面中非表格区域的各个文本行的信息，存入第二列表；

构建模块，用于提取所述当前页面每一个所述表格中各个单元格的坐标值，存入第三列表，并构建所述表格对应的各个单元格的横坐标列表和纵坐标列表；

还原模块，用于根据所述第三列表、所述横坐标列表和所述纵坐标列表提取还原所述表格区域的信息，存入所述第二列表；

排序模块，用于将所述第二列表中的元素按照坐标值重新排序；

合并模块，用于根据预设条件合并所述第二列表中非表格区域的位置相邻的文本。

进一步地，为实现上述目的，本申请还提供一种电子装置，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的PDF文档解析程序，所述PDF文档解析程序被所述处理器执行时实现如上述的PDF文档解析方法的步骤。

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有PDF文档解析程序，所述PDF文档解析程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的PDF文档解析方法的步骤。

相较于现有技术，本申请所提出的PDF文档解析方法、系统、电子装置及计算机可读存储介质，可以同时解析PDF文档的表格区域和非表格区域，没有外部其他模块的依赖，因此运行效率更高，可维护性更强。并且通过构建每个表格的横坐标列表和纵坐标列表(引入单元格所在行、列的开始和结束序号)确定各个单元格的位置信息，清晰还原表格结构，解决了现有工具进行表格解析时文本和坐标不对齐的问题，提高了解析结果的准确性，使得后续做信息抽取等任务使用起来无障碍。

附图说明

图1为本申请第一实施例提出的一种PDF文档解析方法的流程图；

图2为图1中步骤S202的细化流程图；

图3为本申请第二实施例提出的一种电子装置的硬件架构示意图；

图4为本申请第三实施例提出的一种PDF文档解析系统的模块示意图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

实施例一

参阅图1所示，为本申请第一实施例提出的一种PDF文档解析方法的流程示意图。在本实施例中，根据不同的需求，图1所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

该方法包括：

S200，解析PDF文档得到当前页面表格区域各个表格的坐标值，存入第一列表。

本实施例可以通过Pdfplumber工具解析PDF文档，得到其未处理过的当前页面(如第一页)各个表格的坐标值，存入第一列表TABLE_RECT_LIST。具体地，记录表格左上角和右下角的横(X)、纵(Y)坐标，如[X左上,Y左上,X右下,Y右下]。其中，坐标原点为页面左上角，坐标原点向右记作X轴，坐标原点向下记作Y轴。

例如，假设某PDF文档第一页存在两个表格，分别分布在左上角和右下角，且共用中心顶点，若将当前页面的宽、高分别记为W、H，则第一列表TABLE_RECT_LIST中记录上述两个表格的坐标值分别为[0,0,W/2,H/2]、[W/2,H/2,W,H]。

在其他实施例中，还可以设置其他种类的坐标系(例如改变坐标值正方向)，则后续步骤中的具体算法需要进行相应调整，在此不再赘述。

值得注意的是，Pdfplumber工具虽然也可以分别解析出表格的坐标值和表格中的文本，但是存在表格内文本和坐标不对齐的问题，因此本实施例还需要针对该问题进行调整。

S202，提取所述当前页面中非表格区域的各个文本行的信息，存入第二列表。

在本实施例中，在得到当前页面表格区域的坐标值之后，继续提取所述当前页面非表格区域的各个文本行的文本和坐标值等信息，并存入第二列表BOX_LIST。

具体而言，进一步参阅图2，为上述步骤S202的细化流程示意图。可以理解，该流程图不用于对执行步骤的顺序进行限定。根据需要，还可以对该流程图中的部分步骤进行添加或删减。在本实施例中，所述步骤S202具体包括：

S2020，提取所述当前页面中所有文本行的坐标值和文本内容。

具体地，可以调用Pdfplumber工具的extract_words()方法，得到当前页面所有的文本行的坐标值和文本内容。

S2022，判断各个文本行是否落在表格区域。

在本实施例中，判断是否满足文本行落在表格区域内的两个条件为：(1)当前文本行的左上角坐标的X、Y值是否均大于或等于当前页面表格区域的左上角坐标的X、Y值(即第一列表TABLE_RECT_LIST里面每个坐标值的第一、二个值)；(2)当前文本行的右下角坐标的X、Y值是否均小于或等于当前页面表格区域的右下角坐标的X、Y值(即第一列表TABLE_RECT_LIST里面每个坐标值的第三、四个值)。如果两个条件都满足，则说明当前文本行落在表格区域内。反之，如果有任一条件不满足，则说明当前文本行未落在表格区域内。

例如，页面右上角有一文本行，宽为W/4、高为H/10，完整坐标值为[3W/4,0,W,H/10]。将其分别与第一列表TABLE_RECT_LIST中的各个坐标值做比较，可知W大于W/2，不满足条件(2)，当前文本行未落在第一个表格区域(表格坐标值为[0,0,W/2,H/2])；以及0小于H/2，不满足条件(1)，当前文本行亦未落在第二个表格区域(表格坐标值为[W/2,H/2,W,H])。因此，可以判断出该文本行未落在表格区域，属于非表格区域的文本行。

S2024，将未落在表格区域(属于非表格区域)的文本行的信息存入第二列表。

具体地，对于未落在表格区域的文本行，将其类型(非表格)、坐标值和文本内容添加到第二列表BOX_LIST。

回到图2，S204，提取所述当前页面每一个表格中各个单元格的坐标值，存入第三列表，并构建所述各个单元格的横坐标列表和纵坐标列表。

具体地，单个表格各个单元格的坐标值列表通过调用Pdfplumber工具的cells方法可以直接得到，记作第三列表CELLS。然后通过遍历第三列表CELLS，取出里面每个坐标值(即单元格区域左上角和右下角的X、Y坐标，如[X左上,Y左上,X右下,Y右下])，其中X左上和X右下添加到横坐标列表X_LIST，Y左上和Y右下添加到纵坐标列表Y_LIST(其中，每个列表中重复的坐标进行合并)。同时，按照坐标数值从小到大的顺序分别对X_LIST和Y_LIST中的元素重新排序。值得注意的是，上述第三列表CELLS、横坐标列表X_LIST和纵坐标列表Y_LIST均是针对单个表格设置，也就是说每个表格分别对应一组上述列表。

例如，当前页面左上角存在某表格，由四个单元格组成，坐标值分别为[0,0,W/4,H/8]、[W/4,0,W/2,H/8]、[0,H/8,W/4,H/4]、[W/4,H/8,W/2,H/4]，那么得到的横坐标列表为[0,W/4,W/2]、纵坐标列表为[0,H/8,H/4]。

S206，根据所述第三列表、横坐标列表和纵坐标列表提取还原表格区域的信息，存入所述第二列表。

具体地，遍历上述第三列表CELLS(由多个不同的单元格坐标值组成)，通过调用Pdfplumber工具的page.crop(CELL).extract_words()方法，可以得到表格区域的文本内容。从第三列表CELLS中取出每个单元格的X左上、Y左上、X右下、Y右下四个坐标，记录X左上在横坐标列表X_LIST中的索引序号COL_START(从0开始的自然数，后面的索引序号也是)，X右下在X_LIST中的索引序号COL_END，Y左上在纵坐标列表Y_LIST中的索引序号ROW_START，Y右下在Y_LIST中的索引序号ROW_END，并添加类型(表格)、坐标值信息、文本信息、以及单元格位置信息(COL_START、COL_END、ROW_START、ROW_END，通过这四个字段可以准确还原当前单元格在表格中的位置)到第二列表BOX_LIST。

以上述步骤中的表格为例，第一个单元格(坐标值[0,0,W/4,H/8])对应的COL_START为0、COL_END为1、ROW_START为0、ROW_END为1，第二个单元格(坐标值[W/4,0,W/2,H/8])对应的COL_START为1、COL_END为2、ROW_START为0、ROW_END为1，其他单元格同理。

S208，将所述第二列表中的元素按照坐标值重新排序。

具体地，依次取出第二列表BOX_LIST里面的元素(每一行数据，包含文本和坐标值等信息)，并进行两两比较，符合如下条件的则交换两者(两行数据)在第二列表BOX_LIST中的位置：分别取两个元素中坐标值的X左上和X右下的平均值，记作X平均A和X平均B，以及Y左上和Y右下的平均值，记作Y平均A和Y平均B；记录两个Y右下和Y左上的差(第一个元素中Y右下和Y左上的差和第二个元素中Y右下和Y左上的差)的平均值为HEIGHT；将Y平均A和Y平均B的差的绝对值与0.5倍(该数值可根据实际情况微调)的HEIGHT进行比较；若前者大于后者，则比较Y平均A减Y平均B的结果，若大于0(也就是Y平均A大于Y平均B)，则符合交换位置条件，反之不符合；若前者小于等于后者，则比较X平均A减X平均B的结果，若大于0(也就是X平均A大于X平均B)，则符合交换位置条件，反之不符合。

例如，某当前页面非表格区域存在两个文本，A文本在页面右上角，坐标值[0.6W,0,W,0.1H]，B文本在页面左上角距离顶部0.01H，坐标值[0,0.01H,0.4W,0.11H]。计算可得A文本的X平均(即X平均A)为0.8W、Y平均(即Y平均A)为0.05H，HEIGHT为0.1H，B文本的X平均(即X平均B)为0.2W、Y平均(即Y平均B)为0.06H。此处Y平均A减去Y平均B的绝对值0.01H小于0.5HEIGHT的值0.05(属于上述前者小于等于后者的情况)，再比较X平均A和X平均B，易得0.8W大于0.2W，符合交换位置条件，则A、B两行数据交换其在第二列表BOX_LIST中的位置(包含文本、坐标值、类型等信息)。

S210，根据预设条件合并所述第二列表中非表格区域的位置相邻的文本。

具体地，依次取出第二列表BOX_LIST中的元素(包含文本和坐标值等信息)，判断类型是否为非表格。当类型是非表格时再进行两两比较，包括：取出文本C的坐标值X左上C、Y左上C、X右下C、Y右下C，文本D的坐标值X左上D、Y左上D、X右下D、Y右下D；取Y右下C、Y右下D的较大值和Y左上C、Y左上D的较小值的差记作MAX_HEIGHT，取Y右下C、Y右下D的较小值和Y左上C、Y左上D的较大值的差记作MIN_HEIGHT；记录两个Y右下和Y左上的差(Y右下C和Y左上C的差及Y右下D和Y左上D的差)的平均值为height；取X左上D、X右下C的差的绝对值为两个文本间的间隔距离DISTANCE。比较是否满足MIN_HEIGHT与MAX_HEIGHT的比值大于0.6(该数值可根据实际情况微调)且DISTANCE小于等于height，若满足，则合并当前的两个文本。

例如，当前页面的宽高分别为W、H，其中H是W的2倍，左下角有文本C，坐标值[0,0.88H,0.45W,0.98H]，右下角有文本D，坐标值[0.55W,0.9H,W,H]。计算可得，MAX_HEIGHT为0.12H，MIN_HEIGHT为0.08H，height为0.1H，DISTANCE为0.1W，则MIN_HEIGHT与MAX_HEIGHT的比值为0.67，符合大于0.6的要求，DISTANCE的值为0.1W，小于height的值0.1H(等价于0.2W)，则合并文本C和文本D的坐标值和文本内容，得到新文本CD，其坐标值为([0,0.88H,W,H])，新的文本内容则是文本C和文本D两个文本内容的顺序拼接。

通过Pdfplumber工具的page.width和page.height属性可以得知PDF文档当前页面的宽高，结合前面步骤整合的文本、坐标值等信息，便得到了当前页面的完整信息。第二页到最后一页的解析同理，重复执行上述步骤即可。到最后一页解析完成，则整个PDF文档的解析完成。

本实施例提供的PDF文档解析方法，可以同时解析PDF文档的表格区域和非表格区域，没有外部其他模块的依赖，因此运行效率更高，可维护性更强。并且通过构建每个表格的横坐标列表和纵坐标列表(引入单元格所在行、列的开始和结束序号)确定各个单元格的位置信息，清晰还原表格结构，解决了现有工具进行表格解析时文本和坐标不对齐的问题，提高了解析结果的准确性，使得后续做信息抽取等任务时使用起来无障碍。

实施例二

参阅图3所示，为本申请第二实施例提出一种电子装置2的硬件架构示意图。

本实施例中，所述电子装置2可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图3仅示出了具有组件11-13的电子装置2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。在本实施例中，所述电子装置2可以是服务器或者移动终端等具有数据处理能力的电子装置。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子装置2的内部存储单元，例如该电子装置2的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子装置2的外部存储设备，例如该电子装置2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述电子装置2的操作系统和各类应用软件，例如PDF文档解析系统200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置2的总体操作。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的PDF文档解析系统200等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述电子装置2与其他电子设备之间建立通信连接。

实施例三

参阅图4所示，为本申请第三实施例提出一种PDF文档解析系统200的模块示意图。

本实施例中，所述PDF文档解析系统200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本申请各实施例的PDF文档解析操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，PDF文档解析系统200可以被划分为一个或多个模块。例如，在图4中，所述PDF文档解析系统200可以被分割成解析模块201、提取模块202、构建模块203、还原模块204、排序模块205、合并模块206。其中：

所述解析模块201，用于解析PDF文档得到当前页面表格区域各个表格的坐标值，存入第一列表。

本实施例可以通过Pdfplumber工具解析PDF文档，得到其未处理过的当前页面(如第一页)各个表格的坐标值，存入第一列表TABLE_RECT_LIST。具体地，记录表格左上角和右下角的X、Y坐标，如[X左上,Y左上,X右下,Y右下]。其中，坐标原点为页面左上角，坐标原点向右记作X轴，坐标原点向下记作Y轴。

例如，假设某PDF文档第一页存在两个表格，分别分布在左上角和右下角，且共用中心顶点，若将当前页面的宽、高分别记为W、H，则第一列表TABLE_RECT_LIST中记录上述两个表格的坐标值分别为[[0,0,W/2,H/2]、[W/2,H/2,W,H]]。

所述提取模块202，用于提取所述当前页面中非表格区域的各个文本行的信息，存入第二列表。

在本实施例中，在得到当前页面表格区域的坐标值之后，继续提取所述当前页面非表格区域的各个文本行的文本和坐标值等信息，并存入第二列表BOX_LIST。具体地，包括：

(一)提取所述当前页面中所有文本行的坐标值和文本内容。

(二)判断各个文本行是否落在表格区域。

(三)将未落在表格区域(属于非表格区域)的文本行的信息存入第二列表。

所述构建模块203，用于提取所述当前页面每一个表格中各个单元格的坐标值，存入第三列表，并构建所述各个单元格的横坐标列表和纵坐标列表。

所述还原模块204，用于根据所述第三列表、横坐标列表和纵坐标列表提取还原表格区域的信息，存入所述第二列表。

所述排序模块205，用于将所述第二列表中的元素按照坐标值重新排序。

所述合并模块206，用于根据预设条件合并所述第二列表中非表格区域的位置相邻的文本。

通过Pdfplumber工具的page.width和page.height属性可以得知PDF文档当前页面的宽高，结合前面整合的文本、坐标值等信息，便得到了当前页面的完整信息。第二页到最后一页的解析同理，重复执行上述步骤即可。到最后一页解析完成，则整个PDF文档的解析完成。

本实施例提供的PDF文档解析系统，可以同时解析PDF文档的表格区域和非表格区域，没有外部其他模块的依赖，因此运行效率更高，可维护性更强。并且通过构建每个表格的横坐标列表和纵坐标列表(引入单元格所在行、列的开始和结束序号)确定各个单元格的位置信息，清晰还原表格结构，解决了现有工具进行表格解析时文本和坐标不对齐的问题，提高了解析结果的准确性，使得后续做信息抽取等任务时使用起来无障碍。

实施例四

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有PDF文档解析程序，所述PDF文档解析程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的PDF文档解析方法的步骤。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种PDF文档解析方法，应用于配置中心服务端，其特征在于，所述方法包括：

依次取出所述第二列表中的元素并进行两两比较，根据比较结果调整元素在所述第二列表中的位置，包括：分别计算第一元素中左上角横坐标和右下角横坐标的平均值及第二元素中左上角横坐标和右下角横坐标的平均值，记作第一横坐标平均值和第二横坐标平均值，以及第一元素中左上角纵坐标和右下角纵坐标的平均值及第二元素中左上角纵坐标和右下角纵坐标的平均值，记作第一纵坐标平均值和第二纵坐标平均值；计算所述第一元素中右下角纵坐标和左上角纵坐标的差与所述第二元素中右下角纵坐标和左上角纵坐标的差的平均值，记作第一平均高度；将所述第一纵坐标平均值和所述第二纵坐标平均值的差的绝对值与预设倍数的所述平均高度进行比较，若所述绝对值大于所述预设倍数的平均高度，则比较所述第一纵坐标平均值减所述第二纵坐标平均值的结果，若大于0则交换所述第一元素和所述第二元素在所述第二列表中的位置；若所述绝对值小于等于所述预设倍数的平均高度，则比较所述第一横坐标平均值减所述第二横坐标平均值的结果，若大于0则交换所述第一元素和所述第二元素在所述第二列表中的位置；及

2.如权利要求1所述的方法，其特征在于，所述提取所述当前页面中非表格区域的各个文本行的信息，存入第二列表包括：

提取所述当前页面中所有文本行的坐标值和文本内容；

根据所述坐标值判断各个所述文本行是否落在表格区域；

3.如权利要求2所述的方法，其特征在于，所述根据所述坐标值判断各个所述文本行是否落在表格区域包括：

获取当前文本行的左上角坐标值和右下角坐标值；

4.如权利要求1所述的方法，其特征在于，所述构建所述表格对应的各个单元格的横坐标列表和纵坐标列表包括：

5.如权利要求1或4所述的方法，其特征在于，所述根据所述第三列表、所述横坐标列表和所述纵坐标列表提取还原所述表格区域的信息，存入所述第二列表包括：

遍历所述第三列表，获取表格区域的文本内容；

6.如权利要求1所述的方法，其特征在于，所述根据预设条件合并所述第二列表中非表格区域的位置相邻的文本包括：

7.一种PDF文档解析系统，其特征在于，所述系统包括：

排序模块，用于依次取出所述第二列表中的元素并进行两两比较，根据比较结果调整元素在所述第二列表中的位置，包括：分别计算第一元素中左上角横坐标和右下角横坐标的平均值及第二元素中左上角横坐标和右下角横坐标的平均值，记作第一横坐标平均值和第二横坐标平均值，以及第一元素中左上角纵坐标和右下角纵坐标的平均值及第二元素中左上角纵坐标和右下角纵坐标的平均值，记作第一纵坐标平均值和第二纵坐标平均值；计算所述第一元素中右下角纵坐标和左上角纵坐标的差与所述第二元素中右下角纵坐标和左上角纵坐标的差的平均值，记作第一平均高度；将所述第一纵坐标平均值和所述第二纵坐标平均值的差的绝对值与预设倍数的所述平均高度进行比较，若所述绝对值大于所述预设倍数的平均高度，则比较所述第一纵坐标平均值减所述第二纵坐标平均值的结果，若大于0则交换所述第一元素和所述第二元素在所述第二列表中的位置；若所述绝对值小于等于所述预设倍数的平均高度，则比较所述第一横坐标平均值减所述第二横坐标平均值的结果，若大于0则交换所述第一元素和所述第二元素在所述第二列表中的位置；

8.一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的PDF文档解析程序，所述PDF文档解析程序被所述处理器执行时实现如权利要求1-6中任一项所述的PDF文档解析方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有PDF文档解析程序，所述PDF文档解析程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-6中任一项所述的PDF文档解析方法的步骤。