CN117454851A

CN117454851A - 一种面向pdf文档的表格数据抽取方法及装置

Info

Publication number: CN117454851A
Application number: CN202311786233.4A
Authority: CN
Inventors: 朱海洋; 陈为; 储诚灿; 胡健; 谈旭炜; 应石磊; 苏轶; 王牡丹; 潘奇豪; 朱凌军; 沈萍平
Original assignee: Products Zhongda Digital Technology Co ltd; Zhejiang University ZJU
Current assignee: Products Zhongda Digital Technology Co ltd; Zhejiang University ZJU
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-01-26
Anticipated expiration: 2043-12-25
Also published as: CN117454851B

Abstract

本说明书实施例提供一种面向PDF文档的表格数据抽取方法及装置，在抽取方法中，在从PDF文档中解析得到初始表格之后，先针对该初始表格所在页对应的文本列表进行切分，得到文本二维列表。之后，基于该初始表格的行列数和文本二维列表的列数，确定该初始表格的表格类别。最后，基于确定的表格类别和上述的文本列表，对该初始表格进行重构，得到重构表格作为从PDF文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。

Description

一种面向PDF文档的表格数据抽取方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种面向PDF文档的表格数据抽取方法及装置。

背景技术

多数情况下，多源异构多维度供应链数据包含了丰富的有价值信息，对于指导企业的经营管理、决策支持以及商业模式创新等方面具有重要意义。其中，可移植文档格式(portable document format, PDF)作为一种广泛应用的非结构化数据形式，在跨平台性、高保真度和安全性等方面具有显著优势，因此在各类文档的制作和传播中被广泛采用。特别是在企业应用领域，PDF文档是企业内部沟通以及外部交流的重要载体，例如招股说明书、上市公司定期报告（包括年报、半年报和季度报等）、合同协议、产品说明书等。这些PDF文档中蕴含了大量的企业信息，如经营状况、财务指标、市场竞争力、产品特性等，对于企业自身及其利益相关者都具有重要价值。然而，由于PDF文档通常是不可编辑的，且包含表格、图片及文本等多种非结构化数据，因此从中有效地抽取数据变得繁杂且耗时。目前，从PDF文档中抽取数据的方法主要包括人工摘取录入、PDF转换器、开源工具及智能算法等，然而这些方法都存在一定的局限和不足。具体如下：

（1）数据复杂问题。PDF文档通常由表格、图片及文本等具有复杂性及多样性特点的非结构化数据组成，常见的数据转换方法/工具效率低、成本高且未能提供可视分析功能，操作不便捷、可用性受限。

（2）数据质量问题。由于人为主观判断、疏忽或疲劳等多种因素，采用手工方式抽取PDF文档非结构化数据容易发生遗漏、错误，甚至忽略某些重要的数据信息，可能会对后续分析应用产生负面影响。

（3）数据完整问题。采用自动化工具从PDF文档中抽取数据时，往往只能抽取一些常规的财务指标数据，而忽略了那些对数据分析具有极高价值的财务附注、图片及文本等信息，影响数据完整性及分析精准性。

（4）数据对比问题。采用手工方式从PDF文档抽取的结构化数据通常存储在Excel或Word文档表格中，未来需要进行同比、环比以及本年累计等指标的统计分析时，无法实现历史数据的快速检索及调用。

（5）数据融合问题。采用传统的数据抽取方法/工具从PDF文档中提取的结构化数据，通常难以按业务主题进行合理归纳、分类存储，数据可用性不强，由此带来了数据融合方面的挑战。

为了有效解决上述问题，需要提供一种更有效的面向PDF文档的数据抽取方法。

发明内容

本说明书一个或多个实施例描述了一种面向PDF文档的表格数据抽取方法及装置，可以大大提升表格数据的抽取效率和准确性。

第一方面，提供了一种面向PDF文档的表格数据抽取方法，包括：

对PDF文档进行解析，得到其中包含的初始表格和多页文本内容；

将所述多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本；

从所述各个文本列表中，选取所述初始表格所在页对应的目标文本列表；

按照预设符号，对所述目标文本列表进行切分，得到文本二维列表；

根据所述初始表格的第一行数和第一列数，以及所述文本二维列表的第二列数，确定所述初始表格的表格类别；

所述确定所述初始表格的表格类别包括，若所述第一行数小于预设行数，且所述第一列数和所述第二列数相等，则确定所述表格类别为三线表；若所述第二列数与所述第一列数的差值等于预设列数，则确定所述表格类别为边框缺失表；若所述第二列数与所述第一列数的差值大于预设列数，则确定所述表格类别为颜色阶梯表；

根据确定的表格类别，对所述初始表格进行重构，得到重构表格；

将所述重构表格确定为从所述PDF文档中抽取的表格数据。

第二方面，提供了一种面向PDF文档的表格数据抽取装置，包括：

解析单元，用于对PDF文档进行解析，得到其中包含的初始表格和多页文本内容；

转换单元，用于将所述多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本；

选取单元，用于从所述各个文本列表中，选取所述初始表格所在页对应的目标文本列表；

切分单元，用于按照预设符号，对所述目标文本列表进行切分，得到文本二维列表；

确定单元，用于根据所述初始表格的第一行数和第一列数，以及所述文本二维列表的第二列数，确定所述初始表格的表格类别；

所述确定单元具体用于：若所述第一行数小于预设行数，且所述第一列数和所述第二列数相等，则确定所述表格类别为三线表；若所述第二列数与所述第一列数的差值等于预设列数，则确定所述表格类别为边框缺失表；若所述第二列数与所述第一列数的差值大于预设列数，则确定所述表格类别为颜色阶梯表；

重构单元，用于根据确定的表格类别，对所述初始表格进行重构，得到重构表格；

所述确定单元，还用于将所述重构表格确定为从所述PDF文档中抽取的表格数据。

本说明书一个或多个实施例提供的一种面向PDF文档的表格数据抽取方法及装置，在从PDF文档中解析得到初始表格之后，先针对该初始表格所在页对应的文本列表进行切分，得到文本二维列表。之后，基于该初始表格的行列数和文本二维列表的列数，确定该初始表格的表格类别。最后，基于确定的表格类别和上述的文本列表，对该初始表格进行重构，得到重构表格作为从PDF文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书一个实施例披露的实施场景示意图；

图2示出根据一个实施例的一种面向PDF文档的表格数据抽取方法流程图；

图3示出在一个示例中的PDF文档解析过程示意图；

图4示出在一个示例中的文本列表示意图；

图5a示出在一个示例中的目标文本列表示意图；

图5b示出在一个示例中的文本二维列表示意图；

图6示出在一个示例中的面向PDF文档的表格数据抽取方法示意图；

图7a示出可视化分析系统中的文档概览视图示意图；

图7b示出可视化分析系统中的数据抽取视图示意图；

图7c示出可视化分析系统中的数据转换审核视图示意图；

图8示出根据一个实施例的一种面向PDF文档的表格数据抽取装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

通常而言，上市公司定期报告PDF文档包含了丰富的数据信息，这些信息通常以表格的形式进行呈现，例如资产负债表、利润表、现金流量表以及财务报告附注等。将这些表格数据从PDF文档中抽取出来，可为企业决策提供更可靠的数据依据，能更加便捷地对不同时间点或不同企业的数据进行比较，更好地了解对标客体企业的财务变化情况，从而更有针对性地制定相应的计划和决策。

为实现对PDF文档中表格数据的自动化抽取，现有方案提出了许多文档结构化的数据转换技术。

PDF文档通常以图片或二进制编码等形式进行存储，采用文档解析(documentparsing)方法可解码文档结构、解析数据类型。Strouthopoulos等提出了一种基于PDF文档结构和关键词的文档解析方法，可自动识别、抽取其中的文本信息，并精准地确定段落边界和句子完整性。Zhang等研究了一种基于规则的文档解析方法，将PDF文档转换为XML格式并从中抽取元数据。Nguyen等则引入了一种将PDF文档转换为图像格式的方法，采用计算机视觉(computer vision, CV)及图像处理(image processing, IP)技术来识别表格、图片及文本。Grijalva等开发了一个数据转换平台，首先从扫描的PDF文档中抽取文本单元格、位图图像和线条，然后采用机器学习(machine learning)分类方法解析文档内容。Rizvi等提出了一种采用基于掩码及区域的卷积神经网络(mask region-based convolutionalneural network, Mask R-CNN)BRExSys系统框架，对PDF文档进行页面布局解析。此外，Ahmed等还提出了一种基于文本块、排版和几何信息等多维特征的文档解析方法。然而，该方法的准确率较低，且在处理大规模PDF文档时需要占用较多的存储空间和计算资源。

数据抽取(data extraction)是指从PDF文档的表格、图片或文本中识别并提取特定类型的信息。对于表格数据抽取，首先需要检测和理解表格结构，然后再提取其中的数据。传统方法主要依赖于预定义模板及规则匹配来提取特定的字段内容，但受到模板创建的局限，且难以适应不同表格结构。机器学习方法采用YOLO、UNet等图像分割与识别算法检测表格结构，然后运用光学字符识别(optical character recognition，OCR)技术抽取表格数据。Hashmi等提出了一种基于导向锚点的方法，用于精确定位表格图像中的行和列，具有强泛化能力。Jiang等提出了一种基于表格单元结构的深度学习模型，通过学习表不同类型和内容单元格的特征，提高了处理异构表格数据的准确性。

与上述方法不同，本方案提出了一种流程化的表格数据抽取方法，不仅可以抽取PDF文档中的表格主题信息，还能实现复杂表格的结构解析和数据提取。

图1为本说明书一个实施例披露的实施场景示意图。图1中，先对PDF文档进行解析，得到初始表格和文本内容。之后，可以基于文本内容，对初始表格进行重构，进而得到抽取的表格数据。最后，可以对抽取的表格数据进行可视化展示，以供数据分析人员查看并审核，以及将审核通过的表格数据保存到数据库中。

图2示出根据一个实施例的一种面向PDF文档的表格数据抽取方法流程图，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，该方法可以包括如下步骤。

步骤S202，对PDF文档进行解析，得到其中包含的初始表格和多个页面的文本内容。

在一个实施例中，可以利用基于Python的开源工具（pdfplumber）对PDF文档进行解析，从而得到其中的初始表格和多个页面的文本内容（简称多页文本内容）。应理解，该多个页面的文本内容包括初始表格所在页面的文本内容。

图3示出在一个示例中的PDF文档解析过程示意图，图3中，对于给定的PDF文档，首先将其以二进制内容流的形式读取并转换为Python对象，然后逐页遍历PDF文档，解析页面中的线条、矩形、点、图像以及字符等各种对象。对于表格，则参考Nurminen算法的思路，首先基于一维线条、二维矩形和连接点等信息获取实际存在的表格线条；然后通过分析文字对齐的位置信息，推测可能存在的虚拟线条，进而合并这些线条以构建表格单元格；然后再进一步提取单元格中的文本字符，并将表格数据保存为文本二维列表。

而对于文本内容，则首先基于PDFMiner等方法提取文本，解码文本内容流以提取字符，然后计算字符之间的水平和垂直距离，在字符之间插入空格和换行符，以重新构建文本内容结构，并将文本保存为逐行的字符串。

回到图2，图2还可以包括如下步骤：

步骤S204，将多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本。

在一个实施例中，针对任意的某页文本内容，可以按照换行符，将该页文本内容切割为多行文本，之后将该多行文本整理为列表的形式，就可以得到对应的文本列表。在一个更具体的实施例中，该文本列表还可以指示每行文本的索引（Index）、数据类型（Type）、大小（Size）等。

图4示出在一个示例中的文本列表示意图。图4中，该文本列表包括索引（Index）列、类型（Type）列、大小（Size）列和数值（Value）列。其中，索引列的内容为文本标识，其可以从0开始编号。类型列的内容为文本的数据类型，如可以为字符串（Str）等。大小列的内容为文本所含字符串的个数。数值列的内容为文本（也称字符串）。

步骤S206，从各个文本列表中，选取初始表格所在页对应的目标文本列表。

如前所述，针对每个页面的文本内容，均转换为了对应的文本列表。这里是提取针对初始表格所在页面的文本内容所转换得到的目标文本列表。

步骤S208，按照预设符号，对目标文本列表进行切分，得到文本二维列表。

在一个实施例中，这里的预设符号例如可以为空格（blank）。

如前所述，目标文本列表包括多行文本，其中每行文本记录为字符串的形式，而上述对目标文本列表进行切分，可以理解为是将每一行的字符串切分为多个子串，从而形成子列表。

图5a示出在一个示例中的目标文本列表示意图，对于图5a中的目标文本列表，在针对其切分后，所得到的文本二维列表可以如图5b所示。图5b中，每一行对应的子列表包括四个子串，各个子串之间通过逗号分隔，从而也可以理解为该文本二维列表包括4列。

需要说明，由于不同的PDF文档格式各异，往往存在三线表、边框缺失表、颜色阶梯表、跨页表、连续表、嵌套表和多头表等多种表格类别，而针对不同的表格类别，其抽取方式往往不同，因此以下先对表格类别进行判断。

步骤S210，根据初始表格的行数和列数，以及文本二维列表的列数，确定初始表格的表格类别。

具体地，若初始表格D_t的行数小于预设行数（比如，2），且初始表格D_t的列数和文本二维列表D_l,t的列数相等，则确定初始表格D_t的表格类别为三线表；若文本二维列表D_l,t的列数与初始表格D_t的列数的差值n等于预设列数（比如，2），则确定初始表格D_t的表格类别为边框缺失表；若文本二维列表D_l,t的列数与初始表格D_t的列数的差值n大于预设列数，则确定初始表格D_t的表格类别为颜色阶梯表。

需要说明，由于上述的初始表格利用开源工具解析得到，而利用该开源工具所解析得到的表格可能存在如下问题：三线表通常采用三条横线区分表头和表身，但该方法可能会将表身部分识别成一行；边框缺失表（也称两端缺失表）通常缺少表格左右两侧线条，但该方法仅能识别到表格的中间部分；颜色阶梯表通常采用不同深浅的颜色区分相邻行，但该方法对表格颜色并不敏感，容易将相邻的两行数据识别成同一单元格。

鉴于上述通过开源工具所解析得到的初始表格均存在相应的问题。为此，本方案将针对初始表格进行重构。

步骤S212, 根据确定的表格类别，对初始表格进行重构，得到重构表格。

具体地，对于三线表，针对初始表格在目标文本列表中的对应区域的每一行，按照空格对其进行切分，并通过对切分得到的若干一维列表进行聚类，确定出目标列数，以及将初始表格中的内容对应填入具有该目标列数和对应区域所含行数的表格中，得到重构表格。

其中，关于初始表格在目标文本列表中的对应区域的确定方法可以包括，将初始表格的前i行（比如，前2行）与目标文本列表中的各行进行匹配（比如，计算相似度），以确定初始表格在目标文本列表中的起始行。之后，自该起始行向下逐行判断目标文本列表中是否含有空格的行，如果某行无空格，则将该行作为初始表格在目标文本列表的终止行。最后，基于确定的起始行和终止行，就可以确定出初始表格在目标文本列表中的对应区域。

此外，上述切分得到的若干一维列表也可以看作是若干单元格，通过利用Kmeans等基于地理位置的聚类算法，对针对每一行所切分的各个单元格进行聚类，就可以得到上述目标列数。应理解，基于该目标列数和上述对应区域所含行数可以得到新建表格。

最后，上述将初始表格中的内容对应填入具有该目标列数和对应区域所含行数的表格中具体包括，对于初始表格中的每个单元格的内容，将其对应填入到新建表格中的对应位置。比如，将初始表格中第i行第j列的内容，对应填入新建表格的第i行第j列。应理解，在将初始表格中的每个单元格的内容对应填入新建表格后，就可以得到初始表格对应的重构表格。

当然，在实际应用中，在将初始表格中的每个单元格的内容对应填入新建表格后，还可以判断新建表格的行间距是否有差异，针对行间距差异（位置差）和首个单元格的位置是否对齐等进行判断是否存在同行跨行的情况，并针对这类情况进行行合并等。最后，将经过行合并处理后的新建表格确定为重构表格。

对于颜色阶梯表，其重构方法与三线表相类似，所不同的是，在对初始表格在目标文本列表的对应区域切分前，可以对初始表格进行预处理，比如，去除初始表格中的None列，这里的None列是指对应列只包括None（空值），或者同时包括None和空。

对于边框缺失表，可以补齐初始表格的左右两列，并用None填充补齐列后的初始表格中的缺失内容，得到对应的重构表格。

步骤S214，将重构表格确定为从PDF文档中抽取的表格数据。

需要说明，本方案通过对从PDF文档中抽取的初始表格进行重构，可以得到准确的表格数据。

当然，在实际应用中，除了需要获取表格数据本身外，还需要获取表名、计量单位及货币单位等与表格关联的主题信息，以下对该主题信息的获取方法进行说明。

将初始表格D_t的前i行与目标文本列表L_p,i进行匹配，以确定初始表格D_t在目标文本列表L_p,i中的起始行P_s。判断在目标文本列表L_p,i中，从起始行P_s开始向前的全部行数m是否不小于预设数目ρ，在不小于预设数目ρ的情况下，根据起始行P_s和预设数目ρ，从目标文本列表L_p,i中提取对应区域作为表格主题信息所在区域。具体地，上述对应区域是指在目标文本列表L_p,i中，从起始行P_s开始向前的预设数目ρ个行。在小于预设数目ρ的情况下，计算预设数目ρ与m的差值ρ-m，并根据该差值ρ-m、目标文本列表L_p,i和其它文本列表L_p,i-1，确定表格主题信息所在区域。其中，其它文本列表L_p,i-1是初始表格所在页的上一页文本内容对应的文本列表。通过从表格主题信息所在区域中提取关键词确定初始表格D_t的表格主题信息。

其中，上述根据差值ρ-m、目标文本列表L_p,i和其它文本列表L_p,i-1，确定表格主题信息所在区域具体包括，将从其它文本列表L_p,i-1的最后一行开始向前的ρ-m个行，作为目标文本列表L_p,i的在前的补充内容。将增加补充内容后的目标文本列表L_p,i确定为表格主题信息所在区域。

至此，针对PDF文档，抽取到了其中每一页面的表格数据和表格主题信息。

由于PDF文档中的表格可能存在跨页显示的情况，因此针对抽取到的相邻两页及以上的表格数据，还需要判断其是跨页表格（简称跨页表）还是连续表格（简称连续表），并采用对应的方法对其进行还原合并。其中，对连续表格进行合并，是因为连续表中除了第一页表格外的其它各页表格均无主题信息，因此需要合并，确保表格主题信息的完整性及准确性，以便更好地进行数据融合及对比分析。

以下对上述的跨页和连续表格的判断和合并过程进行说明。

假设通过图2示出的方法，所抽取的表格数据包括第一重构表格D_t,-1和第二重构表格D_t,1，且第一重构表格D_t,-1位于上一页面，第二重构表格D_t,1位于下一页面，那么首先可以判断第一条件是否满足。这里的第一条件可以包括，第一重构表格D_t,-1的最后一行与对应的第一文本列表L_t,i-1的最后一行相匹配，第二重构表格D_t,1的第一行与对应的第二文本列表L_t,i的第一行相匹配，以及第一重构表格D_t,-1的列数与第二重构表格D_t,1的列数相等（或第一重构表格D_t,-1与第二重构表格D_t,1的表头数据相一致）。也即第一条件包括三项约束内容。

如果第一条件满足，则判定第一重构表格和第二重构表格为跨页表格，而如果第一条件不满足，则判断第一重构表格和第二重构表格为独立的两张表格。

在第一重构表格和第二重构表格为跨页表格的情况下，可以判断第一重构表格的最后一行与第二重构表格的第一行之间的相似度是否大于预设阈值σ，若是，则确定第一重构表格和第二重构表格为异行跨页表，从而可以在在去除重复表头数据（即去除第二重构表格的表头数据）后，合并第一重构表格和所述第二重构表格，得到合并表格。而如果上述相似度不大于预设阈值σ，则说明第一重构表格和第二重构表格为同行跨页表，从而可以先从第一和第二重构表格中分别截取最后一行和第一行进行合并，然后再合并第一和第二重构表格的剩余部分，得到合并表格。

此外，连续表格也是一种特殊的跨页表，其中子表格占满一页，即初始表格与文本列表的内容一致，其处理方法与跨页表格类似，在此不复赘述。

还需要说明，对于通过上述方法得到的合并表格，其有可能是复杂结构表，比如，嵌套表或者多头表等等。对于复杂结构表，本方案还可以对其进行拆分处理。

具体地，对于上述的合并表格，可以判断该合并表格中是否存在只包含一个非None的中间行。若是，则确定该合并表格为嵌套表，从而可以该中间行为界，将合并表格拆分为上下两个部分；若否，则不做拆分处理。

在本方案中，在对合并表格进行拆分后，针对拆分得到的每个表格，还可以进一步判断其是否是多头表，以下对其进行说明。

假设针对合并表格进行拆分后得到的上下两个部分包括：第一拆分表格和第二拆分表格，则可以针对第一拆分表格（或第二拆分表格）获取表头数据，并判断该表头数据的行数是否大于1行，如果大于，且其中一行包含None，而另一行不包含None，则确定该第一拆分表格（或第二拆分表格）为多头表，从而合并该两行，得到目标表格。

需要说明，上述之所以在判断第一/第二拆分表格为多头表的情况下，执行合并行的操作，是因为在利用开源工具解析文档的过程中采取的策略是以最细颗粒度的线条来预测单元格，导致多头表中的合并单元格被拆分并以None进行填充。

还需要说明，通过本说明书实施例得到的重构表格、合并表格、拆分表格或者目标表格，可以CSV文件的格式进行保存，也可进一步转换为JSON格式存入数据库中。后续可根据实际需求，使用数据分析工具进行数据清洗、统计分析以及可视化展示等操作，从而更加深入地了解对标客体企业的财务状况和业务情况。

图6示出在一个示例中的面向PDF文档的表格数据抽取方法示意图。图6中，在获取到初始表格和及其对应的文本列表后，可以从初始表格中抽取表格主题信息，其中包括表名、计量单元以及货币单位等。此外，针对初始表格，可以依次进行不规则表格（如三线表、边框缺失表、颜色阶梯表等）数据抽取、跨页表格及连续表格数据抽取以及复杂结构表格（如嵌套表和多头表等）数据抽取等。最后抽取到的表格数据包括表格主题信息和表格数据本身，其中，表格数据本身可以以JSON格式等形式存储。

本方案中，还可以向用户展示抽取的表格数据，并支持用户对抽取的表格数据进行审核与分析。

在一个实施例中，可以通过可视化分析系统展示抽取的表格数据。该可视化分析系统可以包括三个视图：文档概览视图、数据抽取视图和数据转换审核视图。其中，文档概览视图，用于展示PDF文档。数据抽取视图，用于展示从PDF文档中抽取的不同表格类别的表格的分布情况。数据转换审核视图，用于审核从PDF文档中所抽取的表格数据。

以下对上述三个视图进行详细说明。

图7a示出可视化分析系统中的文档概览视图示意图，该文档概览视图包括a1区域和a2区域，其中，a1区域用于展示PDF文档，a2区域采用两层树状结构展示PDF文档中每个章节及小节的表格、图片及文本等文档元素构成概况。根节点表示文档名称，叶子节点表示文档的各个章节，章节名显示在根节点与叶子节点的连接线上。叶子节点的大小表示对应章节文档元素的数量多少。叶子节点采用环形树图(circular treemap)形式展示章节包含的小节，每个饼状图表示一个小节，饼状图的大小表示对应小节文档元素的数量多少，饼状图编码对应小节的表格、图片及文本的数量比例。当鼠标悬浮在某个饼状图上时，将会显示对应小节的名称。点击章节名或某个小饼状图，可跳转至PDF文档对应位置。

图7b示出可视化分析系统中的数据抽取视图示意图，该视图的左侧展示了标准表、三线表、边框缺失表、颜色阶梯表、跨页表、连续表、嵌套表和多头表等不同类型表格的图示，右侧以柱状图的形式展示了对应类型表格的总数量及审核状态。用户可以在右侧选择要查看的表格类型，通过点击感兴趣的直方图对应条来进一步查看审核情况。

图7c示出可视化分析系统中的数据转换审核视图示意图，该视图支持用户对抽取的表格数据进行审核与分析。用户可在数据抽取视图中，通过交互方式选择过滤，对抽取的表格数据进行查看、溯源、分析和校正。对于表格数据的审核，用户可以通过点击每一列的列头进行排序，拖动列头左右移动以改变列的顺序，以便根据个人分析习惯组织表格内容。数据表右上角的“放大镜”表示转换溯源，点击“放大镜”图标，该数据表对应的原始PDF文档会在文档概览视图中高亮显示，方便用户对转换前、后的数据进行分析，并审核确认数据的准确性。

具体地，上述的数据转换审核视图可以包括c1-c4四个区域，以下对该四个区域进行说明。

如c1区域所示，对于抽取的表格数据，当用户将鼠标悬停在某一数据行时，右侧会显示“编辑”及“备注”图标，用户可以根据需要点击“编辑”图标进行修改和记录，或者点击“备注”图标直接记录该内容为准确。如c2区域所示，对于审核准确的数据行将被标记为浅灰色背景。经过审核的数据行右侧将显示“备注”图标，随时可点击查看审核日志。此外，如c3区域所示，若用户发现数据存在错误，点击数据行右侧的“编辑”图标，则该数据行将被标记为深灰色背景，同时在其下端插入一行浅灰色背景的修改行，并将错误行数据原样复制过来，且每个数据单元格都可以编辑，用户可以直接进行修改，修改后的数据会以加粗方式显示。最后，如c4区域所示，点击数据行右侧的“备注”图标，用户可以记录修改日志，包括数据是否正确以及审核备注说明等信息。

综合以上，本方案首先对获取的PDF文档进行解析，提取出其中的表格，然后对提取的表格进行重构等处理以实现数据转换。具体地，对于表格数据，本方案采用数据抽取方法获取表格的主题信息及表格数据本身。为进一步提升数据转换的质量，针对数据转换过程中可能存在的数据准确性以及效率性问题，本方案还提供了一种可视化分析系统，实现了数据的可比对、可追溯及可分析。最终，将转换后的结构化数据融合入数据库，便于未来的检索和调用。

总而言之，本方案计了一套针对上市公司定期报告这一具有特殊内容结构及样式特征的PDF文档智能处理策略，提升了PDF文档结构化转换处理的质量及效率。构建了一个新型的可视化分析系统，用于展示抽取的表格数据。此外，该可视化分析系统还支持用户对抽取的表格数据进行审核与分析。

与上述一种面向PDF文档的表格数据抽取方法对应地，本说明书一个实施例还提供的一种面向PDF文档的表格数据抽取装置，如图8所示，该装置可以包括：

解析单元802，用于对PDF文档进行解析，得到其中包含的初始表格和多页文本内容。

转换单元804，用于将多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本。

选取单元806，用于从各个文本列表中，选取初始表格所在页对应的目标文本列表。

切分单元808，用于按照预设符号，对目标文本列表进行切分，得到文本二维列表。

确定单元810，用于根据初始表格的第一行数和第一列数，以及文本二维列表的第二列数，确定初始表格的表格类别。

确定单元810具体用于：若上述第一行数小于预设行数，且上述第一列数和上述第二列数相等，则确定表格类别为三线表；若上述第二列数与第一列数的差值等于预设列数，则确定表格类别为边框缺失表；若第二列数与第一列数的差值大于预设列数，则确定表格类别为颜色阶梯表。

重构单元812，用于根据确定的表格类别，对初始表格进行重构，得到重构表格。

确定单元810，还用于将重构表格确定为从PDF文档中抽取的表格数据。

在一个实施例中，重构表格的数目为两个，且该两个重构表格包括，位于上一页面的第一重构表格和位于下一页面的第二重构表格；该装置还包括：

判断单元814，用于判断第一条件是否满足，该第一条件包括，第一重构表格的最后一行与对应的第一文本列表的最后一行相匹配，第二重构表格的第一行与对应的第二文本列表的第一行相匹配，第一重构表格与第二重构表格的列数相等，或第一重构表格与第二重构表格的表头数据相一致；

判断单元814，还用于在上述第一条件满足的情况下，判断第一重构表格的最后一行与第二重构表格的第一行之间的相似度是否大于预设阈值，若是，则在去除重复表头数据后，合并第一重构表格和第二重构表格，得到合并表格；若否，则通过合并第一重构表格的最后一行和第二重构表格的第一行，得到合并表格。

在一个实施例中，该装置还包括：拆分单元816；

判断单元814，还用于判断合并表格中是否存在只包含一个非None的中间行；

拆分单元816，用于若判断合并表格中存在只包含一个非None的中间行，则以该中间行为界，将合并表格拆分为上下两个部分。

在一个实施例中，上述两个部分包括第一拆分表格和第二拆分表格；该装置还包括：合并单元818；

合并单元818，用于对于第一/第二拆分表格，获取其中的表头数据，如果该表头数据的行数大于1行，且其中一行包含None，而另一行不包含None，则合并该两行，得到目标表格。

在一个实施例中，重构单元812具体用于：

在表格类别为三线表或颜色阶梯表的情况下，针对初始表格在目标文本列表中的对应区域的每一行，按照空格对其进行切分，并通过对切分得到的若干一维列表进行聚类，确定出目标列数，以及将初始表格中的内容对应填入具有目标列数和上述对应区域所含行数的表格中，得到重构表格；

在表格类别为边框缺失表的情况下，补齐初始表格的左右两列，并用None填充补齐列后的初始表格中的缺失内容，得到对应的重构表格。

在一个实施例中，该装置还包括：

匹配单元820，用于将初始表格的前i行与目标文本列表进行匹配，以确定初始表格在目标文本列表中的起始行；

提取单元822，用于在目标文本列表中从所述起始行开始向前的全部行数不小于预设数目的情况下，根据起始行和预设数目，从目标文本列表中提取对应区域作为表格主题信息所在区域；

确定单元810，还用于在上述全部行数小于预设数目的情况下，计算预设数目与全部行数的差值，并根据差值、目标文本列表和其它文本列表，确定表格主题信息所在区域；其中，该其它文本列表是初始表格所在页的上一页文本内容对应的文本列表；

确定单元810，还用于通过从表格主题信息所在区域中提取关键词确定表格主题信息。

在一个实施例中，确定单元810具体用于：

将从其它文本列表的最后一行开始向前的差值个行，作为目标文本列表的在前的补充内容；

将增加补充内容后的目标文本列表确定为表格主题信息所在区域。

在一个实施例中，转换单元804具体用于：

对于某页文本内容，按照换行符，将该页文本内容切割为多行文本，该多行文本形成对应的文本列表。

本说明书上述实施例装置的各功能单元的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的一种面向PDF文档的表格数据抽取装置，可以大大提升表格数据的抽取效率和准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种面向PDF文档的表格数据抽取方法，包括：

将所述重构表格确定为从所述PDF文档中抽取的表格数据。

2.根据权利要求1所述的方法，其中，所述重构表格的数目为两个，且该两个重构表格包括，位于上一页面的第一重构表格和位于下一页面的第二重构表格；所述方法还包括：

判断第一条件是否满足，所述第一条件包括，所述第一重构表格的最后一行与对应的第一文本列表的最后一行相匹配；所述第二重构表格的第一行与对应的第二文本列表的第一行相匹配；所述第一重构表格与所述第二重构表格的列数相等，或所述第一重构表格与所述第二重构表格的表头数据相一致；

在所述第一条件满足的情况下，判断所述第一重构表格的最后一行与所述第二重构表格的第一行之间的相似度是否大于预设阈值，若是，则在去除重复表头数据后，合并所述第一重构表格和所述第二重构表格，得到合并表格；若否，则通过合并所述最后一行和所述第一行，得到合并表格。

3.根据权利要求2所述的方法，还包括：

判断所述合并表格中是否存在只包含一个非None的中间行；

若是，则以该中间行为界，将所述合并表格拆分为上下两个部分。

4.根据权利要求3所述的方法，其中，所述两个部分包括第一拆分表格和第二拆分表格；

对于第一/第二拆分表格，获取其中的表头数据，如果该表头数据的行数大于1行，且其中一行包含None，而另一行不包含None，则合并该两行，得到目标表格。

5.根据权利要求1所述的方法，其中，所述对所述初始表格进行重构，包括：

在所述表格类别为三线表或颜色阶梯表的情况下，针对所述初始表格在所述目标文本列表中的对应区域的每一行，按照空格对其进行切分，并通过对切分得到的若干一维列表进行聚类，确定出目标列数，以及将所述初始表格中的内容对应填入具有所述目标列数和所述对应区域所含行数的表格中，得到所述重构表格；

在所述表格类别为边框缺失表的情况下，补齐所述初始表格的左右两列，并用None填充补齐列后的初始表格中的缺失内容，得到对应的重构表格。

6.根据权利要求1所述的方法，还包括：

将所述初始表格的前i行与所述目标文本列表进行匹配，以确定所述初始表格在所述目标文本列表中的起始行；

在所述目标文本列表中从所述起始行开始向前的全部行数不小于预设数目的情况下，根据所述起始行和预设数目，从所述目标文本列表中提取对应区域作为表格主题信息所在区域；

在所述全部行数小于预设数目的情况下，计算所述预设数目与所述全部行数的差值，并根据所述差值、所述目标文本列表和其它文本列表，确定所述表格主题信息所在区域；其中，所述其它文本列表是所述初始表格所在页的上一页文本内容对应的文本列表；

通过从所述表格主题信息所在区域中提取关键词确定所述表格主题信息。

7.根据权利要求6所述的方法，其中，所述确定所述表格主题信息所在区域，包括：

将从所述其它文本列表的最后一行开始向前的所述差值个行，作为所述目标文本列表的在前的补充内容；

将增加补充内容后的目标文本列表确定为所述表格主题信息所在区域。

8.根据权利要求1所述的方法，其中，所述将所述多页文本内容转换为多个文本列表，包括：

9.一种可视化分析系统，包括：

文档概览视图，用于展示目标PDF文档；

数据抽取视图，用于展示从所述目标PDF文档中抽取的不同表格类别的分布情况；

数据转换审核视图，用于展示根据权利要求1所述的方法，从所述目标PDF文档中所抽取的表格数据。

10.一种面向PDF文档的表格数据抽取装置，包括：