CN115935928A

CN115935928A - 文档信息的提取方法和装置

Info

Publication number: CN115935928A
Application number: CN202211448393.3A
Authority: CN
Inventors: 袁建; 张慧娜; 邸智; 黄思皖; 李小翔
Original assignee: Huaneng Tendering Co ltd; Huaneng Clean Energy Research Institute
Current assignee: Huaneng Tendering Co ltd; Huaneng Clean Energy Research Institute
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-04-07

Abstract

本申请提出了一种文档信息的提取方法，涉及智能招标技术领域，其中，该方法包括：获取文档中页面的文本信息和文本信息对应的位置信息；获取页面中的表格数据集，并从表格数据集中提取行信息和列信息，以及行信息和列信息对应的位置信息；将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体，其中，表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。本申请通过提取文档页面的表格数据，解析表格横向或纵向的合并问题，实现对文档的表格数据信息的提取。

Description

文档信息的提取方法和装置

技术领域

本申请涉及智能招标、IT应用技术领域，尤其涉及一种文档信息的提取方法和装置。

背景技术

第一代电子招投标系统运行期间积累了大量的非结构化招投标文件，文件中包含了大量有价值信息，需要将文档中的主要指标数据提取出来，存入结构化数仓中，支撑后续分析、建模使用。但是由于非结构化文档的局限性，无法直接对其进行大数据分析及应用。其中，在投标价格文档原数据中，存在大量的以pdf格式存储的报价文件，常用的pdf提取python包只能简单的提取文本或者简单表达表格信息，不能充分挖掘表格的横向或纵向合并情况，无法提取整个文档的数据信息。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种文档信息的提取方法，解决了现有方法不能充分挖掘表格的横向或纵向合并情况，无法提取文档的数据信息的技术问题，通过提取文档页面的表格数据，解析表格横向或纵向的合并问题，实现对文档的表格数据信息的提取。

本申请的第二个目的在于提出一种文档信息的提取装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种文档信息的提取方法，包括：获取文档中页面的文本信息和文本信息对应的位置信息；获取页面中的表格数据集，并从表格数据集中提取行信息和列信息，以及行信息和列信息对应的位置信息；将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体，其中，表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。

可选地，在本申请的一个实施例中，在根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体之后，还包括：

根据文本信息对应的位置信息判断文本信息是否在表格的内部；

若文本信息在表格的内部，则确定文本信息为表格信息；

若文本信息不在表格的内部，则确定文本信息为段落信息。

可选地，在本申请的一个实施例中，还包括：

逐页判断文档中的页面是否存在跨页表格；

若存在跨页表格，则对跨页表格进行合并。

可选地，在本申请的一个实施例中，判断文档中的页面是否存在跨页表格，包括：

判断页面与前一页面是否均包含表格；

若是，则判断页面的第一个表格的上方是否存在段落信息；

若存在且同样的段落出现在前一页面的相同位置，则判断前一页面的最后的表格下方是否存在段落信息；

若存在且同样的段落出现在页面的相同位置，则判断前一页面的最后的表格和页面的第一个表格的大小及内部的分割线的位置是否相同；

若相同，则存在跨页表格。

可选地，在本申请的一个实施例中，对跨页表格进行合并，包括：

对前一页面的最后的表格的分割线与页面的第一个表格的分割线进行匹配，根据匹配结果合并前一页面的最后的表格和页面的第一个表格。

为达上述目的，本申请第二方面实施例提出了一种文档信息的提取装置，包括：

文本信息获取模块，用于获取文档中页面的文本信息和文本信息对应的位置信息；

表格信息获取模块，用于获取页面中的表格数据集，并从表格数据集中提取行信息和列信息，以及行信息和列信息对应的位置信息；

匹配模块，用于将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；

保存模块，用于根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体，其中，表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。

可选地，在本申请的一个实施例中，还包括：

第一判断模块，用于根据文本信息对应的位置信息判断文本信息是否在表格的内部；

第一确定模块，用于当文本信息在表格的内部时，确定文本信息为表格信息；

第二确定模块，用于当文本信息不在表格的内部时，则确定文本信息为段落信息。

可选地，在本申请的一个实施例中，还包括：

第二判断模块，用于逐页判断文档中的页面是否存在跨页表格；

合并模块，用于当存在跨页表格时，对跨页表格进行合并。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的文档信息的提取方法。

为了实现上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行一种文档信息的提取方法。

本申请实施例的文档信息的提取方法、装置、计算机设备和非临时性计算机可读存储介质，解决了现有方法不能充分挖掘表格的横向或纵向合并情况，无法提取文档的数据信息的技术问题，通过提取文档页面的表格数据，解析表格横向或纵向的合并问题，实现对文档的表格数据信息的提取。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种文档信息的提取方法的流程图；

图2为本申请实施例的文档信息的提取方法的提取页面表格的流程图；

图3为本申请实施例的文档信息的提取方法的相邻页表格合并的流程图；

图4为本申请实施例二所提供的一种文档信息的提取装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在投标价格文档原数据中，存在大量的以pdf格式存储的报价文件，常用的pdf提取python包只能简单的提取文本或者简单表达表格信息，不能充分挖掘表格的横向或纵向合并情况，无法提取价格文档的表格数据信息。

其中，PDF(Portable Document Format)是一种便携文档格式，便于跨操作系统传播文档。PDF文档遵循标准格式，存在很多可以操作PDF文档的Python包，功能主要分为提取内容、操作页面和创建内容三方面。投标文档数据提取只涉及提取内容功能，主要为文本提取和表格信息提取。通过对比，pdfplumber库功能更符合投标pdf文档的文本提取。但pdfplumber还不能实现表格单元格横向或纵向合并信息提取。

投标价格文档内的报价表格标题栏及内容一般以行形式展现，即大致一行为一条。但存在大量的多行和多列合并情况。

为了有效提取价格文档中的表格信息，本申请设计了一种基于pdfplumber库基本功能基础上提取文本信息和表格信息的文档信息提取方法，可以用于将pdf格式的价格文档中的报价信息提取出来。本申请通过对pdf的表格进行提取，解析横向或纵向的合并问题，最终提取整个文档的表格数据信息。其中，pdf文档处理时是逐页进行处理，若表格存在跨页情况，需要判断前后页是否为同一个表格，并对前后页表格进行匹配。

下面参考附图描述本申请实施例的文档信息的提取方法和装置。

图1为本申请实施例一所提供的一种文档信息的提取方法的流程图。

如图1所示，该文档信息的提取方法包括以下步骤：

步骤101，获取文档中页面的文本信息和文本信息对应的位置信息。

本申请通过调用extract_words()函数获取文档中页面的文本信息和文本信息对应的位置信息。

步骤102，获取页面中的表格数据集，并从表格数据集中提取行信息和列信息，以及行信息和列信息对应的位置信息。

其中，本申请获取的表格数据集中的表格包含大量多行或多列合并的单元格，如表一所示。

表一

本申请根据表格数据集提取得到的表格的行信息和列信息为表格中单元格合并之前的行数量和列数量。

其中，合并之前的表格格式如表二所示，获取如表二所示的表格格式的行数量和列数量。

表二

本申请通过调用find_tabels()函数获取页面中的表格数据集，并根据表格数据集提取页面中每一个表格的行信息和列信息，以及行信息和列信息对应的位置信息。

本申请根据每一个表格的行信息和列信息，构建每一个表格的表格信息数据结构体，用于存储表格对应的文本信息和表格中单元格的横向合并信息和纵向合并信息。

步骤103，将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息。

本申请根据文本信息在页面中位置信息和表格的行信息和列信息在页面中的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息。

其中，将文本信息中文本内容的位置信息与表格的行信息和列信息进行比对，从而得到匹配结果和表格中单元格的横向合并信息和纵向合并信息。

步骤104，根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体，其中，表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。

本申请实施例中若文本信息中文本内容的位置信息与表格的行信息和列信息位置信息相同，则将该文本内容保存至预先建立的表格信息数据结构体中，并将表格中单元格的横向合并信息和纵向合并信息保存至表格信息数据结构体中。

其中，当文本内容对应表格中的多个单元格时，则分别将文本内容保存至其对应的每个单元格中。

本申请实施例的文档信息的提取方法，通过获取文档中页面的文本信息和文本信息对应的位置信息；获取页面中的表格数据集，并从表格数据集中提取行信息和列信息，以及行信息和列信息对应的位置信息；将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体，其中，表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。由此，能够解决现有方法不能充分挖掘表格的横向或纵向合并情况，无法提取文档的数据信息的技术问题，通过提取文档页面的表格数据，解析表格横向或纵向的合并问题，实现对文档的表格数据信息的提取。

本申请提出了一种文档信息的提取方法，通过解析文档每个页面中表格的横向或纵向的合并问题，得到每个页面的表格信息，再逐页判断文档中的页面是否存在跨页表格，若存在跨页表格，则对跨页表格进行合并，从而完成对整个文档的表格信息的提取。

进一步地，在本申请实施例中，在根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体之后，还包括：

若文本信息在表格的内部，则确定文本信息为表格信息；

若文本信息不在表格的内部，则确定文本信息为段落信息。

进一步地，在本申请实施例中，还包括：

逐页判断文档中的页面是否存在跨页表格；

若存在跨页表格，则对跨页表格进行合并。

进一步地，在本申请实施例中，判断文档中的页面是否存在跨页表格，包括：

判断页面与前一页面是否均包含表格；

若是，则判断页面的第一个表格的上方是否存在段落信息；

若相同，则存在跨页表格。

本申请实施例中，判断文档中的页面是否存在跨页表格，包括：

首先判断当前页面与前一页面是否均包含表格；若不包含，则不存在跨页表格。

若包含，则判断当前页面的第一个表格的上方是否存在段落信息；

若存在但为当前页面独有，则不存在跨页表格；

若存在且同样的段落出现在前一页面的相同位置，则该段落为页眉，继续判断前一页面的最后的表格下方是否存在段落信息；

若存在但为当前页面独有，则不存在跨页表格；

若存在且同样的段落出现在当前页面的相同位置，则该段落为页脚，继续判断前一页面的最后的表格和页面的第一个表格的大小及内部的分割线的位置是否相同；

若相同，则存在跨页表格。

进一步地，在本申请实施例中，对跨页表格进行合并，包括：

本申请实施例中若存在跨页表格，则对跨页表格进行合并。其中，对前一页面的最后的表格的分割线与页面的第一个表格的分割线进行匹配，根据匹配结果合并前一页面的最后的表格和页面的第一个表格，得到合并后的完整表格。

本申请提出了对pdf逐页进行预处理及表格横向纵向合并信息提取的方法，还提出了在pdf逐页预处理基础上进行相邻页表格合并匹配的处理方法。

图2为本申请实施例的文档信息的提取方法的提取页面表格的流程图。

如图2所示，该文档信息的提取方法，包括调用find_tabels()函数获取页面中的所有表格数据集合；调用extract_words()函数获取页面中的所有文本信息和文本信息对应的位置信息；然后选择页面中一个表格提取行信息和列信息的单元格信息，得到表格的行数和列数以及行列对应的位置坐标；根据表格的行数和列数建立表格信息数据结构体并进行初始化；根据页面的文本信息对应的位置信息和表格的行列对应的位置坐标确定表格各个单元格内容以及横向或纵向合并信息并保存至表格信息数据结构体；判断文本信息为段落信息或为表格信息。

图3为本申请实施例的文档信息的提取方法的相邻页表格合并的流程图。

如图3所示，首先判断当前页面与前一页面是否均包含表格；若是，则判断当前页面的第一个表格的上方是否存在段落信息；若存在且同样的段落出现在前一页面的相同位置，则该段落为页眉，继续判断前一页面的最后的表格下方是否存在段落信息，若存在且同样的段落出现在当前页面的相同位置，则该段落为页脚，继续判断前一页面的最后的表格和页面的第一个表格的大小及内部的分割线的位置是否相同；若相同，则存在需要合并的跨页表格。

如图4所示，该文档信息的提取装置，包括：

文本信息获取模块10，用于获取文档中页面的文本信息和文本信息对应的位置信息；

表格信息获取模块20，用于获取页面中的表格数据集，并从表格数据集中提取行信息和列信息，以及行信息和列信息对应的位置信息；

匹配模块30，用于将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；

保存模块40，用于根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体，其中，表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。

本申请实施例的文档信息的提取装置，包括文本信息获取模块，用于获取文档中页面的文本信息和文本信息对应的位置信息；表格信息获取模块，用于获取页面中的表格数据集，并从表格数据集中提取行信息和列信息，以及行信息和列信息对应的位置信息；匹配模块，用于将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；保存模块，用于根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体，其中，表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。由此，能够解决现有方法不能充分挖掘表格的横向或纵向合并情况，无法提取文档的数据信息的技术问题，通过提取文档页面的表格数据，解析表格横向或纵向的合并问题，实现对文档的表格数据信息的提取。

进一步地，在本申请实施例中，还包括：

合并模块，用于当存在跨页表格时，对跨页表格进行合并。

为了实现上述实施例，本申请还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例所述的文档信息的提取方法。

为了实现上述实施例，本申请还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的文档信息的提取方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文档信息的提取方法，其特征在于，包括以下步骤：

获取文档中页面的文本信息和所述文本信息对应的位置信息；

获取所述页面中的表格数据集，并从所述表格数据集中提取行信息和列信息，以及所述行信息和列信息对应的位置信息；

将所述文本信息对应的位置信息与所述行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；

根据所述匹配结果将所述文本信息保存至基于所述行信息和列信息建立的表格信息数据结构体，其中，所述表格信息数据结构体还保存有所述表格中单元格的横向合并信息和纵向合并信息。

2.如权利要求1所述的方法，其特征在于，在根据所述匹配结果将所述文本信息保存至基于所述行信息和列信息建立的表格信息数据结构体之后，还包括：

根据所述文本信息对应的位置信息判断所述文本信息是否在所述表格的内部；

若所述文本信息在所述表格的内部，则确定所述文本信息为表格信息；

若所述文本信息不在所述表格的内部，则确定所述文本信息为段落信息。

3.如权利要求2所述的方法，其特征在于，还包括：

逐页判断文档中的页面是否存在跨页表格；

若存在跨页表格，则对所述跨页表格进行合并。

4.如权利要求3所述的方法，其特征在于，所述判断文档中的页面是否存在跨页表格，包括：

判断页面与前一页面是否均包含表格；

若是，则判断所述页面的第一个表格的上方是否存在段落信息；

若存在且同样的段落出现在所述前一页面的相同位置，则判断所述前一页面的最后的表格下方是否存在段落信息；

若存在且同样的段落出现在所述页面的相同位置，则判断所述前一页面的最后的表格和所述页面的第一个表格的大小及内部的分割线的位置是否相同；

若相同，则存在跨页表格。

5.如权利要求4所述的方法，其特征在于，所述对所述跨页表格进行合并，包括：

对所述前一页面的最后的表格的分割线与所述页面的第一个表格的分割线进行匹配，根据匹配结果合并所述前一页面的最后的表格和所述页面的第一个表格。

6.一种文档信息的提取装置，其特征在于，包括：

文本信息获取模块，用于获取文档中页面的文本信息和所述文本信息对应的位置信息；

表格信息获取模块，用于获取所述页面中的表格数据集，并从所述表格数据集中提取行信息和列信息，以及所述行信息和列信息对应的位置信息；

匹配模块，用于将所述文本信息对应的位置信息与所述行信息和列信息对应的位置信息进行匹配，得到匹配结果和表格中单元格的横向合并信息和纵向合并信息；

保存模块，用于根据所述匹配结果将所述文本信息保存至基于所述行信息和列信息建立的表格信息数据结构体，其中，所述表格信息数据结构体还保存有所述表格中单元格的横向合并信息和纵向合并信息。

7.如权利要求6所述的装置，其特征在于，还包括：

第一判断模块，用于根据所述文本信息对应的位置信息判断所述文本信息是否在所述表格的内部；

第一确定模块，用于当所述文本信息在所述表格的内部时，确定所述文本信息为表格信息；

第二确定模块，用于当所述文本信息不在所述表格的内部时，则确定所述文本信息为段落信息。

8.如权利要求6所述的装置，其特征在于，还包括：

合并模块，用于当存在跨页表格时，对所述跨页表格进行合并。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。