CN116311259A

CN116311259A - 一种pdf业务文档的信息抽取方法

Info

Publication number: CN116311259A
Application number: CN202211562314.1A
Authority: CN
Inventors: 李佳静; 董泽信; 戴媛媛; 贾网; 李小龙; 李盛; 孟涛
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-06-23
Anticipated expiration: 2042-12-07
Also published as: CN116311259B

Abstract

本发明公开了一种PDF业务文档的信息抽取方法，涉及文件信息抽取和数据处理领域，包括如下步骤：步骤1、对PDF业务文档的每个页面进行解析，得到表格线列表；步骤2、若能够为一个字符对象生成最小单元格，则判定该字符对象为表格字符；否则判定该字符对象为非表格字符；步骤3、对所有的非表格字符以坐标信息进行拼接、分段，完成非表格区域的文本抽取，并得到每个非表格字符段的中心点的坐标；步骤4、根据非表格字符段的中心点的坐标，对所有最小单元格所属的表格区域进行划分，得到表格区域列表；步骤5、对表格区域列表完成结构和区域文本的抽取。本方法能够提高PDF业务文档，尤其是包含复杂表格的金融披露文档中信息抽取的精度。

Description

一种PDF业务文档的信息抽取方法

技术领域

本发明涉及文件信息抽取和数据处理领域，特别是一种PDF业务文档的信息抽取方法。

背景技术

PDF全称Portable Document Format，是一种便携文档格式，它可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中，且不会因为使用的平台不同而产生不同的显示效果，屏幕显示和打印输出就是发布者想要的样子。由于PDF文件优秀的信息展示能力，目前越来越多的公司采用PDF格式文件来发布自己的年报、财报等一些披露文件。而在很多情况下，我们需要从这些文档中包含的表格内提取重要数据信息进行统计和分析等，然而，由于PDF文档内容的获取开放性很低，不同于Word、Latex、HTML格式对表格数据有专门的定义或者标记，PDF文档受固有格式的限制，表格只是文字与线条的集合，因此人们并不能方便的将PDF格式文档中的数据信息转化成可读写的信息。

面向金融信息披露主要是指金融从业机构（以下简称“从业机构”）以招股说明书、上市公告书以及定期报告和临时报告等形式，把从业机构及与从业机构相关的信息，向投资者和社会公众公开披露的行为。真实、全面、及时、充分地进行信息披露，对促进中国互联网金融行业依法合规经营、持续健康发展和切实保障投资者利益至关重要。金融披露文的内容包含数十万字非结构化文本数据以及数百张不同的半结构化表格数据。目前，现有的PDF处理技术中，通常只能对金融披露文档中的文本和简单表格进行抽取。对于一些左右边框缺失的表格、有合并单元格的表格以及外部有文本框的表格，现有技术抽取的效果并不理想，准确率较低，不能满足金融领域中高精度数据的需求。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种PDF业务文档的信息抽取方法，本发明能够减少表格抽取过程中无关文本元素混入的噪音，达到了较好的表格识别与信息抽取性能，具有很高的准确率、泛化能力以及商业应用价值。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种PDF业务文档的信息抽取方法，包括以下步骤：

步骤1、对PDF业务文档的每个页面进行解析，得到当前页面中字符对象、线对象和矩形对象；

根据矩形对象的坐标信息，从矩形对象中筛选出长度大于两个像素且宽度小于一个像素的矩形对象，将其认定为线对象；

字符对象存储在字符列表，线对象存储在线列表；

对线列表进行预处理和筛选操作得到表格线列表；

步骤2 、根据字符列表中字符对象、表格线列表中线对象，若能够为一个字符对象生成最小单元格，则判定该字符对象为表格字符，否则判定该字符对象为非表格字符；最小单元格是指每个字符对象周围最近的四条线对象围成的矩形；

步骤3、对所有的非表格字符以坐标信息进行拼接、分段，完成非表格区域的文本抽取，并得到每个非表格字符段的中心点的坐标；

步骤4、根据非表格字符段的中心点的坐标，对所有最小单元格所属的表格区域进行划分，得到表格区域列表；

步骤5、对每个表格区域列表，首先对各表格区域列表中最小单元格内的字符对象进行拼接，然后对各表格区域列表的最小单元格进行拼接，对表格区域列表完成结构和区域文本的抽取。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，步骤1中对线列表进行预处理和筛选操作，具体过程如下：

步骤101、根据线列表中的线对象的坐标信息，在所有线对象中识别出水平线对象和垂直线对象；根据PDF业务文档中表格在垂直方向上左右对齐的特性，从线对象的坐标信息中得到当前PDF页面中水平方向上表格的最左点和最右点；

步骤102、针对PDF业务文档中存在的文本框线，该文本框线不是表格线，对文本框线进行过滤；过滤的方法为：如果一条水平线对象的横坐标长度和当前PDF页面中水平方向上表格的最右点与最左点的间隔相等，则认定该条水平线对象为一条水平文本框线，将它从线列表删除；再利用识别出的水平文本框线的坐标判定垂直文本框边线，并将垂直文本框边线从线列表中删除；此时的线列表即为表格线列表。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，利用识别出的水平文本框线的坐标判定垂直文本框边线的方法为：如果一条垂直线对象的纵坐标与水平文本框线的纵坐标相等，则认定该条垂直线对象为垂直文本框线。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，步骤2具体如下：

步骤201、遍历字符列表，以每一个字符对象的坐标为基准，与表格线列表中的每一个线对象的坐标作比较，分别找到距离该字符对象上下左右四个方向上最近的四条线对象，并生成最小单元格；针对缺边表格，将缺边表格的最左点和最右点作为表格缺失的线对象的坐标，使字符对象成功生成最小单元格；

步骤202、将成功生成的最小单元格存储在以最小单元格坐标为键、字符对象为值的最小单元格字典中；如果最小单元格已经被生成过，则只将字符对象追加到该最小单元格的值内；

步骤203、如果字符对象找不到上下左右的四条线对象，即无法生成最小单元格，则认定该字符对象为非表格字符。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，步骤3中，所述每个非表格字符段的中心点坐标的计算过程如下：

步骤301、根据非表格字符的坐标信息生成文本行列表，文本行列表的每个元素存储着非表格区域一行文本的所有非表格字符；

步骤302、根据文本行列表中的每行文本的最前的两个非表格字符的坐标信息计算出每行文本的行中心点（x，y），其中，x为行中心点的横坐标值，y为行中心点的纵坐标值；

步骤303、如果存在两行文本的行中心点的y之差在预设的阈值范围内，则认定这两行文本为同段落文本，否则这两行文本为两个不同的段落；

步骤304、对每段文本的所有行中心点求平均值作为每个非表格字符段的中心点的坐标。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，步骤4中划分的方法为：

步骤401、将非表格字符段的中心点在垂直方向上的数值由大至小进行排序，然后遍历非表格字符段的中心点；对当前非表格字符段的中心点，遍历步骤2生成的最小单元格字典中的键列表；

步骤402、对比键列表中当前最小单元格的坐标和当前非表格字符段的中心点，如果当前最小单元格在垂直方向上高于当前非表格字符段的中心点，则将该最小单元格加入当前表格区域列表，并从最小单元格字典的键列表中删除该最小单元格；

步骤403、如果最小单元格字典的键列表遍历完成，则以下一个非表格字符段的中心点为基准，并回到步骤402；

步骤404、当所有的非表格字符段的中心点全部遍历完成后，得到所有的表格区域列表。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，步骤5中拼接的过程具体如下：

步骤501、基于最小单元格的纵坐标，将纵坐标相同、或纵坐标差距在一个字符对象的纵坐标差值范围内的最小单元格划分为行，并根据纵坐标从大到小对行进行排序；

步骤502、根据每行中最小单元格的横坐标从小到大进行排序，确定最小单元格的先后顺序；

步骤503、遍历最小单元格，将每个最小单元格中的字符对象进行拼接操作，直至遍历完成。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，步骤5后还包括：统计结构抽取完成后表格区域列表中每行的最小单元格个数，以最多最小单元格个数为表格区域列表的列数目，如果存在某一行的最小单元格个数小于表格区域列表的列数目，则认定这一行的最小单元格中存在合并单元格；将存在合并单元格的行与最多最小单元格个数的行进行对比，最终判断出是合并单元格的最小单元格；针对有合并单元格的表格区域列表采取对齐、复制填充的方法处理。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，采取对齐、复制填充的方法具体如下：如果一个最小单元格是合并单元格，则创建空白最小单元格将这最小单元格恢复成合并之前的最小单元格个数，进行列对齐，再将原最小单元格内的字符复制填充进新生成的空白最小单元格内；空白最小单元格是指没有字符对象的最小单元格。

作为本发明所述的一种PDF业务文档的信息抽取方法进一步优化方案，字符对象包括字符对象的值信息、坐标信息和字体字号信息；线对象包括线对象的值信息、坐标信息和字体字号信息；矩形对象包括矩形对象的值信息、坐标信息和字体字号信息。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

（1）本发明无需标注语料，即可快速精确地将一些左右边框缺失的表格、有合并单元格的表格以及外部有文本框的表格进行结构恢复和区域文本抽取，并重新绘制成可编辑的文件；

（2）本发明能够减少表格抽取过程中无关文本元素混入的噪音，达到了较好的表格识别与信息抽取性能，具有很高的准确率、泛化能力以及商业应用价值；

（3）本方法能够用于提高金融披露文档，尤其是包含复杂表格的金融披露文档中信息抽取的精度。

附图说明

图1是根据本发明的整体流程图。

图2是实施例中待处理的PDF文件页面。

图3是对线列表预处理后页面效果图。

图4是生成最小单元格后得到的效果图。

图5是划分表格区域后得到的效果图。

图6是对表格区域中的最小单元格及最小单元格内的字符进行拼接操作后得到的图片。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，PDF业务文档可以为金融披露文档，一种面向金融披露文档的信息抽取方法，包括如下步骤：

步骤1. 对金融披露文档进行解析，得到PDF文件中字符对象、线对象和矩形对象的坐标信息。

步骤2. 根据字符对象、线对象和矩形对象的坐标信息，生成最小单元格。如果能成功为一个字符生成最小单元格，则判定该字符为表格字符；否则判定该字符为非表格字符。

步骤3. 对所有的非表格字符以坐标信息进行拼接、分段，完成非表格区域的文本内容抽取；并得到每个非表格字符段的中心点坐标。

步骤4. 根据非表格字符段落中心点坐标，对所有最小单元格所属的表格区域进行划分，得到表格区域列表。

步骤5. 对每个表格区域，首先对各单元格内的字符进行拼接，然后对各单元格进行拼接，完成表格结构恢复和表格区域文本抽取。

其中步骤1的中对PDF文件解析后，得到字符对象、线对象和矩形对象后，进行存储得到字符列表和线列表。其中将字符对象存储在字符列表，将线对象存储在线列表，并且将矩形对象以满足“长度大于两个像素而宽度小于一个像素”的规则进行筛选过后加入线列表。

线列表的预处理如下：

(1) 根据线列表中的线元素的坐标信息，在所有线元素的坐标信息中加入垂直（V）或水平（H）标签。并通过线元素的坐标得到当前PDF页面中水平方向上表格的最左点和最右点。

(2) 针对工具生成的金融披露文档，对由工具生成的文本框线进行过滤。过滤的规则为如果一条水平线对象的横坐标长度和最右点与最左点的间隔相等，则认定该条水平线为工具生成的水平文本框边线，将它从线列表删除并加入边线列表。再利用边线列表中的水平文本框线坐标判定由工具生成的垂直文本框边线，判定的规则为如果一条垂直线对象的纵坐标与垂直文本框线坐标相等，则认定该条垂直线为工具生成的垂直文本框线，将它从线列表删除。

其中步骤2中最小单元格定义为每个字符周围最近的四条线围成的矩形。生成最小单元格的规则为：

(1) 遍历字符列表，以每一个字符对象的坐标为基准，与每一条线元素的坐标作比较，分别找到距离该字符上下左右四个方向上最近的四条线对象，并生成最小单元格。

(2) 针对一些缺边表格，将表格的最左点和最右点作为缺失线元素的坐标，使字符可以成功生成最小单元格。

(3) 将成功生成的最小单元格存储在以最小单元格坐标为键，字符对象为值的最小单元格字典中。如果最小单元格已经被生成过，则只将字符对象追加到该最小单元格的值内。

(4) 如果字符对象找不到上下左右的四条线元素，即无法生成最小单元格，则认定该字符对象为非表格字符，存储在文本列表中。

为了区分一张PDF页面中的多个表格，本方法借助非表格文本的位置关系划分表格区域，通过比较非表格文本的段落中心点及最小单元格坐标的位置关系划分表格区域。

其中步骤3中所属段落中心点的计算过程如下：

(1) 根据非表格字符的坐标信息生成文本行列表，文本行列表的每个元素存储着一行文本的所有非表格字符。

(2) 根据每行文本的最前的两个非表格字符的坐标信息计算出每行文本的行中心点（x，y）。

(3) 基于行中心点的y值判断每行文本之间的段落关系。判断的规则为：如果两个行中心点的y值之差在一定阈值范围内，则认定这两行文本为同段落文本，否则为两个不同的段落。将同段落文本按y值的大小顺序存放在段列表的同一元素中。

(4) 根据每段文本的各个行中心点计算其平均值作为每段文本的段中心点。

由于在金融披露PDF文件中表格和文本段总是交替出现的，因此本方法利用文本段落中心点和最小单元格中在垂直方向上的关系划分表格区域。

其中步骤4中划分表格区域的算法为：

(1) 将段落中心点在垂直方向上的数值由高至低（y值从大到小）进行排序，然后遍历段落中心点。对当前段落中心点，遍历步骤2生成的最小单元格列表。

(2) 对比当前最小单元格的坐标和当前段落中心点，如果当前最小单元格在垂直方向上高于当前段落中心点，则将该最小单元格加入当前表格区域，并从最小单元格列表中删除该最小单元格。

(3) 如果最小单元格列表遍历完成，则以列表中下一个段落中心点为基准，并回到第（2）步。

(4) 当所有的段落中心点全部遍历完成后算法结束，得到表格区域列表。

步骤5中对表格区域，首先对各单元格内的字符进行拼接，然后对各单元格进行拼接。具体操作如下：

(1) 基于最小单元格的纵坐标，将纵坐标相同或差距在一定范围内的单元格划分为行，并根据纵坐标从大到小对行进行排序。

(2) 根据每行中最小单元格的横坐标从小到大进行排序，确定单元格先后顺序。

(3) 遍历最小单元格，将每个最小单元格中的字符进行拼接操作（字符拼接操作与单元格拼接操作相同），直至遍历完成。

抽取到的表格结构还无法适用于有合并单元格情况的表格，因此需要对已有的表格结构中的最小单元格进行是否为合并单元格的判断。

针对有合并单元格情况的表格，采取对齐、填充的方法处理。即如果一个单元格是最小单元格，那么会使用空白单元格（没有无字符的单元格）将它恢复成合并之前的单元格个数，形成列对齐，再将原单元格内的字符填充进新生成的空白单元格内。

实施例：

如图2所示，为一个金融披露PDF文件中的两张页面，采用本发明的方法抽取这两种页面中的信息，具体来说：

步骤1.对PDF文件进行解析，从页面中提取出其中的字符对象的坐标信息和线对象的坐标信息，并进行线对象的预处理，得到如图3所示的预处理后的页面效果图。

步骤2.根据字符对象的坐标信息和线对象的坐标信息，生成如图4所示的页面最小单元格。

步骤3.对所有的非表格字符以坐标信息进行拼接、分段，完成非表格区域的文本内容抽取；并得到每段文本的段落中心点坐标。

步骤4.根据段落中心点坐标，对所有最小单元格所属的表格区域进行划分，图5所示为划分后单元格效果图。

步骤5.对每个表格区域中进行每个单元格内的字符拼接和单元格拼接，得到如图6所示的页面，完成表格结构恢复和表格区域文本抽取。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种PDF业务文档的信息抽取方法，其特征在于，包括以下步骤：

字符对象存储在字符列表，线对象存储在线列表；

对线列表进行预处理和筛选操作得到表格线列表；

2.根据权利要求1所述的一种PDF业务文档的信息抽取方法，其特征在于，步骤1中对线列表进行预处理和筛选操作，具体过程如下：

3.根据权利要求2所述的一种PDF业务文档的信息抽取方法，其特征在于，利用识别出的水平文本框线的坐标判定垂直文本框边线的方法为：如果一条垂直线对象的纵坐标与水平文本框线的纵坐标相等，则认定该条垂直线对象为垂直文本框线。

4.根据权利要求2所述的一种PDF业务文档的信息抽取方法，其特征在于，步骤2具体如下：

5.根据权利要求4所述的一种PDF业务文档的信息抽取方法，其特征在于，步骤3中，所述每个非表格字符段的中心点坐标的计算过程如下：

6.根据权利要求5所述的一种PDF业务文档的信息抽取方法，其特征在于，步骤4中划分的方法为：

7.根据权利要求6所述的一种PDF业务文档的信息抽取方法，其特征在于，步骤5中拼接的过程具体如下：

8.根据权利要求7所述的一种PDF业务文档的信息抽取方法，其特征在于，步骤5后还包括：统计结构抽取完成后表格区域列表中每行的最小单元格个数，以最多最小单元格个数为表格区域列表的列数目，如果存在某一行的最小单元格个数小于表格区域列表的列数目，则认定这一行的最小单元格中存在合并单元格；将存在合并单元格的行与最多最小单元格个数的行进行对比，最终判断出是合并单元格的最小单元格；针对有合并单元格的表格区域列表采取对齐、复制填充的方法处理。

9.根据权利要求8所述的一种PDF业务文档的信息抽取方法，其特征在于，采取对齐、复制填充的方法具体如下：如果一个最小单元格是合并单元格，则创建空白最小单元格将这最小单元格恢复成合并之前的最小单元格个数，进行列对齐，再将原最小单元格内的字符复制填充进新生成的空白最小单元格内；空白最小单元格是指没有字符对象的最小单元格。

10.根据权利要求1所述的一种PDF业务文档的信息抽取方法，其特征在于，字符对象包括字符对象的值信息、坐标信息和字体字号信息；线对象包括线对象的值信息、坐标信息和字体字号信息；矩形对象包括矩形对象的值信息、坐标信息和字体字号信息。