CN116246289A

CN116246289A - 一种pdf边线缺失表格内容识别方法及系统

Info

Publication number: CN116246289A
Application number: CN202211685908.1A
Authority: CN
Inventors: 宗云兵; 梁果敢; 胡杨; 杜伟; 徐桂杰
Original assignee: Jinxiandai Information Industry Co ltd
Current assignee: Jinxiandai Information Industry Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-06-09

Abstract

本发明提供了一种PDF边线缺失表格内容识别方法及系统，所述方案包括：读取待表格内容识别的PDF文档，并进行解析；对于解析得到的线段对象中满足预设要求的水平线段和竖直线段分别进行线段合并；计算所有竖直线段中端点纵坐标的出现频次，若出现频次大于2的纵坐标且不存在使用该纵坐标的水平线段，则认为存在水平边线缺失，并进行水平边线补齐；基于合并及边线补齐后的水平线段和竖直线段的交叉点坐标，实现表格单元格的获取，并基于获得的单元格实现二维表格的提取；基于二维表格中单元格的位置坐标以及解析结果中结构化对象的位置坐标，获得不同单元格中的具体内容，实现表格内容的识别。

Description

一种PDF边线缺失表格内容识别方法及系统

技术领域

本发明属于表格内容识别技术领域，尤其涉及一种PDF边线缺失表格内容识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

PDF是便携式文档格式的简称，其格式与操作系统无关，不会因系统或软件环境问题导致文档乱码，因而有越来越多的文档采用该格式。PDF文档的自动化处理也催生了许多第三方PDF解析库。但发明人发现，多数第三方库只对文本内容有较好的提取效果，能够提取PDF文件中表格的库还较少，而针对表格的提取也受到具体表格质量的影响；受限于PDF页面大小或表格尺寸过长影响，PDF中的表格可能会被分隔到两页或多页中，因此在提取时会被认定为两个单独的表格，造成上一页面最下方和下一页面最上方表格框线缺失，导致该单元格内的数据无法提取。

发明内容

本发明为了解决上述问题，提供了一种PDF边线缺失表格内容识别方法及系统，所述方案基于表格竖直线段中端点纵坐标的出现频次，判断是否存在边线缺失，并基于使用该纵坐标的所有竖直线段的坐标信息，实现水平边线的补齐，有效保证了表格框线的完整识别；同时结合相似性判别，实现割裂表格的合并，获得完整的表格形式，进而能够是实现表格内任意单元格内容的获取。

根据本发明实施例的第一个方面，提供了一种PDF边线缺失表格内容识别方法，包括：

读取待表格内容识别的PDF文档，并进行解析；

对于解析得到的线段对象中满足预设要求的水平线段和竖直线段分别进行线段合并；

计算所有竖直线段中端点纵坐标的出现频次，若出现频次大于2的纵坐标且不存在使用该纵坐标的水平线段，则认为存在水平边线缺失；以该纵坐标作为缺失的水平边线两端点的纵坐标，以使用该纵坐标的所有竖直线段中端点横坐标的最小值和最大值，分别作为缺失的水平边线两端点的横坐标，实现边线补齐；

基于合并及边线补齐后的水平线段和竖直线段的交叉点坐标，实现表格单元格的获取，并基于获得的单元格实现二维表格的提取；

基于二维表格中单元格的位置坐标以及解析结果中结构化对象的位置坐标，获得不同单元格中的具体内容，实现表格内容的识别。

进一步的，所述基于获得的单元格实现二维表格的提取后，对于获得的若干表格，基于预设合并规则进行表格合并。

进一步的，所述预设合并规则具体为：

判断相邻表格的列数是否相同，若否，则不合并；

若是，则进行如下判断：

若相邻表格有表头，比较表头内容相似度，若相似度满足预设要求则合并，若不满足，则不合并；

若相邻表格没有表头，比较前一表格最后一行和后一表格第一行内容的文本相似度，若相似度满足预设要求，则合并，若不满足，则先将前一个表格的最后一行内容与后一个表格的第一行内容合并为一行，再用此行内容与前一个表格倒数第二行内容比较文本相似度，若相似度满足预设要求，则合并，若不满足则不合并。

进一步的，所述对于解析得到的线段对象中满足预设要求的水平线段和竖直线段分别进行线段合并，具体为：对于解析得到的线段对象，基于其位置坐标属性，对所述线段对象进行水平线段和竖直线段的判定；并分别对相邻线段中端点纵坐标满足预设容差值的水平线段以及横坐标满足预设容差值的竖直线段进行合并。

进一步的，所述读取待表格内容识别的PDF文档，并进行解析，具体为：读取待识别的PDF文档，以二进制文件流的形式读入到内存；基于所述二进制文件流，将PDF文档中的各元素解析为若干结构化对象，并获取各结构化对象的属性。

根据本发明实施例的第二个方面，提供了一种PDF边线缺失表格内容识别系统，包括：

数据获取单元，其用于读取待表格内容识别的PDF文档，并进行解析；

线段合并单元，其用于对于解析得到的线段对象中满足预设要求的水平线段和竖直线段分别进行线段合并；

边线补齐单元，其用于计算所有竖直线段中端点纵坐标的出现频次，若出现频次大于2的纵坐标且不存在使用该纵坐标的水平线段，则认为存在水平边线缺失；以该纵坐标作为缺失的水平边线两端点的纵坐标，以使用该纵坐标的所有竖直线段中端点横坐标的最小值和最大值，分别作为缺失的水平边线两端点的横坐标，实现边线补齐；

表格提取单元，其用于基于合并及边线补齐后的水平线段和竖直线段的交叉点坐标，实现表格单元格的获取，并基于获得的单元格实现二维表格的提取；

内容识别单元，其用于基于二维表格中单元格的位置坐标以及解析结果中结构化对象的位置坐标，获得不同单元格中的具体内容，实现表格内容的识别。

根据本发明实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种PDF边线缺失表格内容识别方法。

根据本发明实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种PDF边线缺失表格内容识别方法。

与现有技术相比，本发明的有益效果是：

本发明提供了一种PDF边线缺失表格内容识别方法及系统，所述方案基于表格竖直线段中端点纵坐标的出现频次，判断是否存在边线缺失，并基于使用该纵坐标的所有竖直线段的坐标信息，实现水平边线的补齐，有效保证了表格框线的完整识别；同时结合相似性判别，实现割裂表格的合并，获得完整的表格形式，进而能够是实现表格内任意单元格内容的获取。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中所述的一种PDF边线缺失表格内容识别方法流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种PDF边线缺失表格内容识别方法。

一种PDF边线缺失表格内容识别方法，包括：

读取待表格内容识别的PDF文档，并进行解析；

进一步的，需要说明的是，本实施例中所指的线段，使用与矩形相同的表示方式，存在有四个顶点，四个顶点对应左上角、右上角、左下角、右下角，水平线段上下纵坐标相同，竖直线段左右横坐标相同。

进一步的，所述预设合并规则具体为：

判断相邻表格的列数是否相同，若否，则不合并；

若是，则进行如下判断：

进一步的，所述将PDF文档中的各元素解析为若干结构化对象，具体包括字符、图表、图像、矩形、线段、文本块以及页面结构化对象。

进一步的，所述结构化对象的属性包括位置坐标、宽和高。

具体的，为了便于理解，以下结合附图对本实施例所述方案进行详细说明：

为了解决现有技术存在的问题，如图1所示，本实施例提供了一种PDF边线缺失表格内容识别方法，具体包括如下步骤：

步骤1：读取PDF文档

采用python内置的open函数，以二进制格式读打开待内容识别的PDF文档。

步骤2：解析文档

调用PDFMiner函数将二进制文件流解析成可操作对象，PDFMiner函数根据PDF规范解析文件。它会首先读取PDF文档的文件头，获取文档的基本信息，然后读取每页数据，提取其中的文本、图像等并根据其位置将其置于一个内容模型中，该模型会将页面中的内容按坐标排列，以便将文本和图像按其在页面上的位置和顺序进行处理，具体解析结果包括字符、图表、图像、矩形、线段、文本块、页面等结构化对象，并获取各个对象的属性，如位置坐标、宽、高等信息。本实施例所述方法主要用到的信息包括PDF文档中线段的位置坐标、文字内容和其坐标，这些信息以字典类型保存。

步骤3：合并相近线段

设定容差值，容差值可根据具体情况进行设定；对页面中所有线段按照从上到下、从左到右的顺序排序，如果线段四个顶点纵坐标均相同，则判定为水平线段；若横坐标均相同，则判定此线段为竖直线段。然后分别在水平线段和竖直线段中按纵坐标或横坐标排序，然后比较相邻线段的纵坐标或横坐标，如果差值小于设定阈值，则认为两条线段可进行合并。

以水平线段为例，先将可合并的线段的纵坐标用可合并的多条线段的纵坐标的平均值代替，然后将具有相同纵坐标的水平线段按线段左侧端点横坐标(x0，右侧段点横坐标设为x1)排序，比较是否有重合部分，如果有则进行合并，用合并线段中最小的x0和最大的x1代替。竖直线段类似，故此处不在重复举例。

步骤4：补齐缺失边线(主要解决因分页导致的水平边线缺失)

统计每一页pdf中所有竖直线段中的两个端点的纵坐标及其出现频次，如果某端点的纵坐标出现频次大于2且没有使用该纵坐标的水平线段，则认为缺失边线。

用使用该纵坐标的所有竖直线段中最小的x0和最大的x1作为待添加线段的横坐标，用该坐标作为其纵坐标，线段其它位置属性可根据坐标计算得出(如宽度等)，其余属性则与其它水平线段保持一致。将该线段加入到存储线段的列表中。

步骤5：提取表格：

遍历所有水平线段和竖直线段信息，根据其位置信息计算交叉点坐标。

从第一个交叉点开始，找到其左侧和下侧直接相邻的点，由此推出右下角的点坐标，如果该点属于交叉点，则根据这四点组成一个单元格；重复此操作，将交叉点转变成一个个单元格。

从第一个单元格开始，寻找其它与该单元格有公共点的单元格，找到一个后把其加到一个列表中作为表格待用单元格存储起来，然后继续从剩余单元格中寻找其它与上述列表中单元格有公共点的单元格。直到不在剩余单元格，如果多次查找后仍有剩余，则认为剩余单元格与前面查到的单元格不属于同一个表格，重复上述操作。最后选出单元格个数大于1的表格列表。

单元格的坐标经过前面的处理已经非常规整，可直接排序形成二维列表(表格存储的形式)。

由于PDF解析得到的文字也具有坐标信息，可以遍历二维列表，找出位于当前的单元格内的文字，作为该单元格的文本内容。

步骤6：合并被分开的表格：

表格提取时具有顺序，故可先比较相邻表格的列数是否相同，如果不同则一定不能合并。对于仍具有表头的被分割表格，则可以先根据相邻表格的表头相似度作为合并依据；如果没有表头，则比较前一个表格最后一行和后一个表格第一行内容的文本相似度，如果相似度大于阈值则认为可以合并；否则假设前一个表格中的最后一行与后一个表格中的第一行内容由于分页被分开，先将前一个表格的最后一行内容与后一个表格的第一行内容合并为一行，再用此行内容与前一个表格倒数第二行内容比较文本相似度，若满足阈值条件，认为可以合并；对于以上相似度均不能满足条件的表格认为不可合并。

进一步的，所述文本相似度的计算采用python内置的difflib模块来实现。

进一步的，本实施例所述方法可以补齐PDF文件中表格缺失的框线，并且可以将割裂的表格重新合并为一个表格，最后实现表格内容的提取。

实施例二：

本实施例的目的是提供一种PDF边线缺失表格内容识别系统。

一种PDF边线缺失表格内容识别系统，包括：

进一步的，本实施例所述系统与实施例一中所述方法相对应，其技术细节在实施例一中进行了详细说明，故此处不再赘述。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

上述实施例提供的一种PDF边线缺失表格内容识别方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种PDF边线缺失表格内容识别方法，其特征在于，包括：

读取待表格内容识别的PDF文档，并进行解析；

2.如权利要求1所述的一种PDF边线缺失表格内容识别方法，其特征在于，所述基于获得的单元格实现二维表格的提取后，对于获得的若干表格，基于预设合并规则进行表格合并。

3.如权利要求2所述的一种PDF边线缺失表格内容识别方法，其特征在于，所述预设合并规则具体为：

判断相邻表格的列数是否相同，若否，则不合并；

若是，则进行如下判断：

4.如权利要求1所述的一种PDF边线缺失表格内容识别方法，其特征在于，所述对于解析得到的线段对象中满足预设要求的水平线段和竖直线段分别进行线段合并，具体为：对于解析得到的线段对象，基于其位置坐标属性，对所述线段对象进行水平线段和竖直线段的判定；并分别对相邻线段中端点纵坐标满足预设容差值的水平线段以及横坐标满足预设容差值的竖直线段进行合并。

5.如权利要求1所述的一种PDF边线缺失表格内容识别方法，其特征在于，所述读取待表格内容识别的PDF文档，并进行解析，具体为：读取待识别的PDF文档，以二进制文件流的形式读入到内存；基于所述二进制文件流，将PDF文档中的各元素解析为若干结构化对象，并获取各结构化对象的属性。

6.如权利要求1所述的一种PDF边线缺失表格内容识别方法，其特征在于，所述将PDF文档中的各元素解析为若干结构化对象，具体包括字符、图表、图像、矩形、线段、文本块以及页面结构化对象。

7.如权利要求6所述的一种PDF边线缺失表格内容识别方法，其特征在于，所述结构化对象的属性包括位置坐标、宽和高。

8.一种PDF边线缺失表格内容识别系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种PDF边线缺失表格内容识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种PDF边线缺失表格内容识别方法。