CN111368511A

CN111368511A - Pdf文档解析方法及装置

Info

Publication number: CN111368511A
Application number: CN202010128312.6A
Authority: CN
Inventors: 王辉
Original assignee: E Capital Transfer Co ltd
Current assignee: E Capital Transfer Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03

Abstract

本发明涉及一种PDF文档解析方法，该方法包括：识别PDF文档中的结构化元素；分别提取各结构化元素的位置坐标和/或单元特征；基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素；获取各待解析元素的解析结果；其中，结构化元素包括：文本、图片、及表格。这种方法解析准确率更高，并适应于形式多样的表格，对跨页分布、缺乏边框、PDF文档分辨率低等情况具有良好的适应性。

Description

PDF文档解析方法及装置

技术领域

本发明涉及图像识别技术领域，更具体地说，涉及一种PDF文档解析方法。

背景技术

PDF文档是一种应用广泛的文档格式，可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在其中，具有存储空间少、不会被随便篡改、便于传输、不存在兼容问题等优点。PDF文档也存在缺点，其中的文本、图片和表格等内容无法直接被导出，这给试图从文档中提取文本信息、图片和表格数据的用户带来了不便。

在现有技术中，针对少量的内容，人们可通过手动操作将文档从PDF格式转变为其他格式，然后进行格式调整与内容比对后使用，但当文档内容较多或文档数量大时，仅依靠人工操作完成内容的解析会造成工作量巨大且无法保证准确性。尤其在金融领域，如招股说明书、上市公司研究报告等内容一般在百页以上，其中包含大量文本、图片和表格内容，且对解析结果准确率要求极高。

现有技术中提供一些PDF文档解析的技术方案针对于表格进行解析，但又不能适应于形式多样的表格，或是无法实现跨页长表格的合并，还有一些技术方案对图片的解析效果较差。在PDF包括分界不清楚的表格时，这些技术方案无法准确地自动合并或拆分表格。

发明内容

根据本发明的一个方面，提供一种PDF文档解析方法，该方法包括：a)、识别PDF文档中的结构化元素；b)、分别提取各结构化元素的位置坐标和/或单元特征；c)、基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素；d)、获取各待解析元素的解析结果；其中，结构化元素包括：文本、图片、及表格。

可选地，步骤c)包括：基于各结构化元素的单元特征的一致性和/或差异性来修正相应结构化元素的位置坐标。

可选地，步骤c)包括：针对各结构化元素，分别确定该结构化元素的至少一个信息单元；确定第一结构化元素的第一信息单元与第一结构化元素的第二信息单元之间的第一相似性；确定第一结构化元素的第一信息单元与第二结构化元素的第三信息单元之间的第二相似性。

可选地，生成至少一个待解析元素包括：生成第一结构化元素和第二结构化元素的并集。

可选地，生成至少一个待解析元素包括：将第一结构化元素拆分为第二结构化元素和第三结构化元素。

可选地，位置坐标包括：结构化元素的边框位置及尺寸；结构化元素所在页面的页眉及页脚信息。

可选地，步骤d)包括：向不同于PDF文档所在设备的第二设备提供各结构化元素的相应位置坐标；从第二设备接收各结构化元素的解析结果。

可选地，步骤d)包括：获取各待解析元素的第一解析结果；基于第一解析结果来重构各待解析元素；获取各重构后待解析元素的第二解析结果。

可选地，该方法还包括：向用户显示解析结果，和/或以可编辑格式存储解析结果。

根据本发明的另一个方面，提供一种PDF文档解析装置，该装置包括：元素识别单元，配置成识别PDF文档中的结构化元素；位置提取单元，配置成分别提取各结构化元素的位置坐标和/或单元特征；元素重构单元，配置成基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素；以及结果获取单元，配置成分别获取各待解析元素的解析结果；其中，结构化元素包括：文本、图片、及表格。

可选地，元素重构单元配置成：基于各结构化元素的单元特征的一致性和/或差异性来修正相应结构化元素的位置坐标。

可选地，元素重构单元配置成：针对各结构化元素，分别确定该结构化元素的至少一个信息单元；确定第一结构化元素的第一信息单元与第一结构化元素的第二信息单元之间的第一相似性；确定第一结构化元素的第一信息单元与第二结构化元素的第三信息单元之间的第二相似性。

可选地，元素重构单元配置成：生成第一结构化元素和第二结构化元素的并集。

可选地，元素重构单元配置成：将第一结构化元素拆分为第二结构化元素和第三结构化元素。

可选地，结果获取单元配置成：向不同于PDF文档所在设备的第二设备提供各结构化元素的相应位置坐标；从第二设备接收各结构化元素的解析结果。

可选地，第二设备包括：位于云端的服务器；不同于PDF文档所在的终端设备的另一终端设备。

可选地，结果获取单元配置成：获取各待解析元素的第一解析结果；指示元素重构单元基于第一解析结果来重构各待解析元素；获取各重构后待解析元素的第二解析结果。

本发明提供的PDF文档解析方法适于对大量PDF文档执行自动解析，提取其中的表格、图片信息，并能够对表格进行合并、拆分等操作，解析准确率更高。此外，这种解析方法适应于形式多样的表格，对跨页分布、缺乏边框、PDF文档分辨率低等情况具有良好的适应性。

附图说明

图1示出本发明第一实施例提供的PDF文档解析方法的流程图。

图2示出本发明第二实施例提供的PDF文档解析装置的模块结构示意图。

具体实施方式

在以下描述中提出具体细节，以便提供对本发明的透彻理解。然而，本领域的技术人员将清楚地知道，即使没有这些具体细节也可实施本发明的实施例。在本发明中，可进行具体的数字引用，例如“第一元件”、“第二装置”等。但是，具体数字引用不应当被理解为必须服从于其字面顺序，而是应被理解为“第一元件”与“第二元件”不同。

本发明所提出的具体细节只是示范性的，具体细节可以变化，但仍然落入本发明的精神和范围之内。术语“耦合”定义为表示直接连接到组件或者经由另一个组件而间接连接到组件。

总体来说，本发明提供两种模式来解析PDF文档。一、对于内容较少的PDF文档或仅需解析部分或特定内容的PDF文档，在上传至浏览器后，后台通过确定文档的文本、图片和表格等元素的坐标位置后，组成坐标集合，然后进行内容解析，并将解析结果返回至浏览器右侧。在此过程中，可提供人机交互功能。还可进一步根据用户需要，精准地选择文本、图片或表格内容进行复制或下载。二、对于内容较多或大量PDF文档，可将文档放置规定路径，由后台对文档的文本、图片和表格内容进行自动解析，并将解析结果保存为Html、CSV、Json等格式文档。在此过程中，可实现PDF文档的批处理以提高解析效率。

以下通过参照附图来描述适于实现本发明的方法、系统和装置的优选实施例。虽然各实施例是针对元件的单个组合来描述，但是应理解，本发明包括所公开元件的所有可能组合。因此，如果一个实施例包括元件A、B和C，而第二实施例包括元件B和D，则本发明也应被认为包括A、B、C或D的其他剩余组合，即使没有明确公开。

如图1所示，本发明第一实施例提供一种PDF文档解析方法，该方法包括以下步骤S10-S12-S14-S16。

步骤S10、识别PDF文档中的结构化元素。

PDF文档内容包括文本、图片和表格，布局存在多种布局方式，例如表格可能采用单栏、双栏或复杂布局。表格形式包括有边框表格、边框缺失表格、无边框表格、以色块为背景的表格等。图片也是PDF文档中不可缺少的元素，其通常呈矩形、不具有边框、一般不会跨页分布。文本包含文字信息，这些文字信息又和表格、图片密切关联，文本可以跨页分布、分段分布。

本文中，结构化元素包括可识别的文本、图片和表格等。在这里，可以采用图像处理算法来识别PDF文档中的结构化元素，结构化元素以数字形式来存储并参与运算。结构化元素的边界例如包括文档中可识别的页面、分段、线条、边框。作为示例，通过识别PDF文档中的线条组成线条集合，再将横线和竖线进行交叉处理以得到表格元素。可以采用灰度转换、图像平滑、边缘检测、二值化等图像处理算法来确定图片或表格元素。可以按照分段的布局来识别出多个不同的文本元素。在步骤S10中，所获得的结构化元素是原始或初级的、由识别所得的元素，但未经合并、拆分处理。

步骤S12、分别提取各结构化元素的位置坐标和/或单元特征。

具体来说，位置坐标可以包括：结构化元素的边框位置及尺寸；结构化元素所在页面的页眉及页脚信息。在该步骤中，通过图像处理算法可以得到文档中的文本、图片和表格线条的坐标，通过坐标换算后确定各个结构化元素的区域，包括其位置坐标或尺寸信息。页眉和页脚信息可用于识别跨页分布的结构化元素，结合使用元素数据定位算法，则可实现跨页表格的自动合并。

就表格而言，这种结构化元素可以划分为多个单元格，各单元格之间具有一定的相似性，包括尺寸和文字内容的相似。单元特征可以为多种，包括表格的单元格的尺寸、不同单元格之间的规律性间隔等。单元特征还可进一步包括单元格内的文字内容以数字图像所体现的形式、以及文字内容是否包括关键字符(例如，％，$，￥，.00等)，这种单元特征在金融领域的PDF文档中甚至更加重要。就图片来说，即使同一图片也可被划分为若干同尺寸的小块。对每一小块，可确定其灰度、颜色、以及像素的其他统计特征。因此，在该步骤中，可以提取各结构化元素(尤其是表格、图片)的单元特征。

步骤S14、基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素。

在该步骤中，基于各结构化元素的单元特征的一致性和/或差异性来修正相应结构化元素的位置坐标。不同单元特征的一致性及差异性可以在步骤S12提取出的各结构化元素的单元特征的基础上经计算而得到。待解析元素对应于经拆分、合并或重新整合而成的结构化元素。在用户看来，待解析元素更符合用户对PDF文档的内容分类的认知，它们与原始的结构化元素可能存在较大差异。有可能的情况是，两个或更多的结构化元素应被合并为同一待解析元素，或者，同一结构化元素应被拆分为两个或更多个待解析元素。

作为示例，按以下方式来衡量不同结构化元素的单元特征之间的一致性：针对各结构化元素，分别识别该结构化元素的至少一个信息单元(如表格的单元格或图片的小块)；确定第一结构化元素的第一信息单元与第一结构化元素的第二信息单元之间的第一相似性；确定第一结构化元素的第一信息单元与第二结构化元素的第三信息单元之间的第二相似性。采用这种方式，可以确定第一表格(步骤S10中获得的原始表格、未经拆分或合并)的第一单元格与第二单元格之间的第一相似性，以及确定第一表格的第一单元格与第二表格(同样为原始表格)的第三单元格之间的第二相似性。这样，在后续步骤中，在第一相似性高于第二相似性的情况下，可以核实第一、第二单元格均属于第一表格；在第一相似性低于第二相似性的情况下，可以判定第一单元格应归属于第二表格，而非第一表格。照这样，可以实现对表格的拆分或合并。相似性的指标也可以用来指示不同结构化元素的单元特征之间的差异性。作为示例，在两个结构化元素的单元特征之间的差异性小于第一阈值的情况下，可以将这两个结构化元素合并。反之，在差异性大于第二阈值时，可以确定这两个结构化元素应属于不同个体。

为了判定某个信息单元是属于第一表格还是属于第二表格，可以引入带权重的计算方法。作为示例，将表格的文字内容和行列尺寸均考虑在内，按照如下算式确定某个单元格的归属：

T1＝β×A1+(1-β)×S1

T2＝β×A2+(1-β)×S2

其中，A表示基于文字内容的因子，S表示行列尺寸的因子，该算式考虑了文字内容和行列尺寸两者的相似度(该单元格与某一类表格的单元格之间的相似度)，T1是与第一类表格的单元格的相似度，T2是与第二类表格的单元格的相似度，β是可调节阈值，可用于调整A和S对最后结果的影响权值。

在本发明的一些具体实施例中，生成待解析元素包括生成第一结构化元素和第二结构化元素的并集，这对应于不同表格的合并，这种情况在原始表格跨页分布或间断分布的情况下尤为有利。在本发明的另一些具体实施例中，生成待解析元素包括将第一结构化元素拆分为第二结构化元素和第三结构化元素，这对应于将一个表格拆分为性质不同的两个表格。

以根据单元格的位置坐标、单元特征来合并表格为例。当表格缺失部分边框时(可能因PDF文档的分辨率较低)，可以依据表格区域中文本的横向和纵向间隔进行缺失线条补充，并依据文本的跨行信息合并表格，进而重现用户期望的表格结构。针对无边框表格，可以基于文字流表格识别方式，具体地，在确定其中的文本坐标后，依据文本坐标的规律性间隔，对表格进行栅格化处理，并进行缺失线条补充，依据文本的跨行信息合并表格以重现用户期望的表格结构。针对色块为背景的表格，通过对识别所得的结构化元素进行灰度转换、图像平滑、边缘检测及二值化处理后，可确定精细的表格区域，依据文本规律性间隔进行缺失线条补充，再依据文本的跨行信息合并表格，进而可重现用户期望的表格结构。

在本发明的一些具体实施例中，在解析单栏PDF文档中，针对于单页文档中存在两张及以上表格的情况，在获取文档中的线条集合后优先处理横线，设y_i是横向线条在PDF文档中的纵坐标，当存在纵向高度h₀使得|y_i-y_i-1-h₀|＜Δh时，可判断线条y_i和y_i-1属于同一表格(这里以纵坐标来标识横向线条、以横坐标来标识纵向线条)，其中Δh为可容忍偏差。反之，则不属于同一表格。在双栏或复杂布局的PDF文档中，同时进行横线和纵线判断，以确定表格线条集合。

步骤S16、获取各待解析元素的解析结果。

这里，提取文本、图片、表格等对象的字体、字号、颜色、方向等特性，再利用这些特性的适当组合来产生待解析元素的解析结果。

具体来说，步骤S16可以按以下方式来执行：向不同于PDF文档所在设备的第二设备提供各结构化元素的相应位置坐标；从第二设备接收各结构化元素的解析结果。

根据本发明进一步改进的实施例，步骤S16还可以包括获取各待解析元素的第一解析结果；基于第一解析结果来重构各待解析元素；获取各重构后待解析元素的第二解析结果。即，初步的解析结果可以作为反馈来修正待解析元素。

在步骤S16之后，该方法还可以包括以下步骤：向用户显示解析结果，以及，以可编辑格式存储解析结果。这些格式包括Html、CSV、Json。

图2示出本发明的第二实施例，一种PDF文档解析装置包括元素识别单元201、位置提取单元203、元素重构单元205以及结果获取单元207。

元素识别单元201配置成识别PDF文档中的结构化元素。位置提取单元203配置成分别提取各结构化元素的位置坐标和/或单元特征。元素重构单元205配置成基于各结构化元素的位置坐标和/或单元特征生成至少一个待解析元素。结果获取单元207配置成分别获取各待解析元素的解析结果。位置提取单元201耦合至位置提取单元203，位置提取单元203耦合到元素重构单元205，元素重构单元205耦合到结果获取单元207。在实现解析结果反馈的实施例中，结果获取单元207的输出可被提供至元素重构单元205的输入端。

具体来说，元素重构单元205可基于各结构化元素的单元特征的一致性或差异性来修正相应结构化元素的位置坐标，实现结构化元素的合并或拆分。作为示例，元素重构单元205可配置成针对各结构化元素，分别确定该结构化元素的至少一个信息单元；确定第一结构化元素的第一信息单元与第一结构化元素的第二信息单元之间的第一相似性；确定第一结构化元素的第一信息单元与第二结构化元素的第三信息单元之间的第二相似性。这种信息单元之间的相似性用来指示结构化元素的单元特征的一致性或差异性。

作为示例，在确定第一表格的单元格与第二表格的某个单元格相似的情况下，元素重构单元205配置成将第一表格和第二表格合并，即产生两个表格的并集，这在同一表格跨页分布的情况下较为常见。在确定第一表格的第一单元格与第二单元格差异较大的情况下，元素重构单元205配置成将第一表格拆分为两个子表格，使得第一、第二单元格归属到不同的子表格，这在两个不同类型的表格临近的情况下较为常见。

根据本发明一些实施例，结果获取单元205还配置成向不同于PDF文档所在设备的第二设备提供各结构化元素的相应位置坐标，并从第二设备接收各结构化元素的解析结果。第二设备可以为位于云端的服务器，这时云端服务器完成对待解析元素的解析工作。第二设备也可以为不同于PDF文档所在的终端设备的另一终端设备，该设备可以是专用解析设备，并采用机器学习算法来进行训练学习，解析结果以可编辑格式返回给PDF文档所在设备。这两种具体实施方式均可以部署在云计算系统中。作为示例，在云端或后台端，使用Java语言，实现PDF文档解析过程，在PDF文档所在设备端，使用JavaScript语言，结合Canvos技术，以Html、CSV、Json格式展示解析结果。鉴于此，本发明提供一种PDF文档解析系统，其包括上述PDF文档解析装置和后台服务器，两者相互耦合、协同工作来实现对PDF文档的自动解析。此外，后台服务器可以与多台PDF文档解析装置相耦合。

在本发明的一些实施例中，结果获取单元205获取各待解析元素的第一解析结果；随后，指示元素重构单元203基于第一解析结果来重构各待解析元素；最后，获取各重构后待解析元素的第二解析结果。这里实现了反馈机制，初步的解析结果(第一解析结果)可以体现出解析的效果是否符合用户预期或某些量化指标，在未达到用户预期或指标的情况下，根据前一次的解析结果来重构待解析元素，随后再次执行解析过程，直至解析结果符合期望。

在本发明的一些实施例中，系统的至少一部分可采用通信网络所连接的一组分布式计算装置来实现，或，基于“云”来实现。在这种系统中，多个计算装置共同操作，以通过使用其共享资源来提供服务。

基于“云”的实现可提供一个或多个优点，包括：开放性、灵活性和可扩展性、可中心管理、可靠性、可缩放性、对计算资源所优化、具有聚合和分析跨多个用户的信息的能力、跨多个地理区域进行连接、以及将多个移动或数据网络运营商用于网络连通性的能力。

在本发明一些实施例中，提供一种机器可读存储介质，其上存储计算机可执行指令，其中，这些计算机可执行指令在由处理器执行时，实现上述第一实施例中提供的PDF文档解析方法。

本领域的技术人员将会理解，结合本文中所公开的方面所描述的各种说明性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了表明硬件和软件间的可互换性，各种说明性部件、块、模块、电路和步骤在上文根据其功能性总体地进行了描述。这样的功能性是实现为硬件还是软件将取决于特定应用以及对总体系统所施加的设计限制。技术人员可以针对具体的特定应用、按照变化的方式来实现所描述的功能性，但是，这样的实现方式决策不应当被理解为引起与本发明范围的背离。

上述说明仅针对于本发明的优选实施例，并不在于限制本发明的保护范围。本领域技术人员可能作出各种变形设计，而不脱离本发明的思想及附随的权利要求。

Claims

1.一种PDF文档解析方法，包括：

a)、识别所述PDF文档中的结构化元素；

b)、分别提取各所述结构化元素的位置坐标和/或单元特征；

c)、基于各所述结构化元素的位置坐标和/或单元特征生成至少一个待解析元素；

d)、获取各所述待解析元素的解析结果；

其中，所述结构化元素包括：文本、图片、及表格。

2.根据权利要求1所述的方法，其特征在于，步骤c)包括：

基于各所述结构化元素的单元特征的一致性和/或差异性来修正相应所述结构化元素的位置坐标。

3.根据权利要求1所述的方法，其特征在于，步骤c)包括：

针对各所述结构化元素，分别确定该结构化元素的至少一个信息单元；

确定第一结构化元素的第一信息单元与所述第一结构化元素的第二信息单元之间的第一相似性；

确定第一结构化元素的第一信息单元与第二结构化元素的第三信息单元之间的第二相似性。

4.根据权利要求1所述的方法，其特征在于，生成所述至少一个待解析元素包括：

生成第一结构化元素和第二结构化元素的并集。

5.根据权利要求1所述的方法，其特征在于，生成所述至少一个待解析元素包括：

将第一结构化元素拆分为第二结构化元素和第三结构化元素。

6.根据权利要求1所述的方法，其特征在于，所述位置坐标包括：

所述结构化元素的边框位置及尺寸；

所述结构化元素所在页面的页眉及页脚信息。

7.根据权利要求1所述的方法，其特征在于，步骤d)包括：

向不同于PDF文档所在设备的第二设备提供各所述结构化元素的相应位置坐标；

从所述第二设备接收各所述结构化元素的解析结果。

8.根据权利要求1所述的方法，其特征在于，步骤d)包括：

获取各所述待解析元素的第一解析结果；

基于所述第一解析结果来重构各所述待解析元素；

获取各重构后待解析元素的第二解析结果。

9.根据权利要求1至8中任一项所述的方法，还包括：

向用户显示所述解析结果，和/或

以可编辑格式存储所述解析结果。

10.一种PDF文档解析装置，包括：

元素识别单元，配置成识别所述PDF文档中的结构化元素；

位置提取单元，配置成分别提取各所述结构化元素的位置坐标和/或单元特征；

元素重构单元，配置成基于各所述结构化元素的位置坐标和/或单元特征生成至少一个待解析元素；以及

结果获取单元，配置成分别获取各所述待解析元素的解析结果；

其中，所述结构化元素包括：文本、图片、及表格。

11.根据权利要求10所述的装置，其特征在于，所述元素重构单元配置成：

12.根据权利要求10所述的装置，其特征在于，所述元素重构单元配置成：

13.根据权利要求10所述的装置，其特征在于，所述元素重构单元配置成：

生成第一结构化元素和第二结构化元素的并集。

14.根据权利要求10所述的装置，其特征在于，所述元素重构单元配置成：

15.根据权利要求10所述的装置，其特征在于，所述结果获取单元配置成：

从所述第二设备接收各所述结构化元素的解析结果。

16.根据权利要求15所述的装置，其中，所述第二设备包括：

位于云端的服务器；

不同于所述PDF文档所在的终端设备的另一终端设备。

17.根据权利要求10所述的装置，其特征在于，所述结果获取单元配置成：

获取各所述待解析元素的第一解析结果；

指示所述元素重构单元基于所述第一解析结果来重构各所述待解析元素；

获取各重构后待解析元素的第二解析结果。

18.一种机器可读存储介质，其上存储计算机可执行指令，其中，所述计算机可执行指令在由处理器执行时，实现如权利要求1至9中任一项所述的方法。

19.一种PDF文档解析系统，包括如权利要求10至17中任一项所述的PDF文档解析装置以及后台服务器。

20.根据权利要求19所述的系统，其特征在于，所述系统按照云计算系统来部署，所述后台服务器设置于云端。