CN106951400A

CN106951400A - 一种pdf文件的信息抽取方法及装置

Info

Publication number: CN106951400A
Application number: CN201710067220.XA
Authority: CN
Inventors: 兰任; 马超; 张道泉; 赵继广
Original assignee: Beijing Causality Network Technology Co Ltd
Current assignee: Beijing Causality Network Technology Co Ltd
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2017-07-14

Abstract

本发明涉及信息处理领域，尤其涉及一种PDF文件的信息抽取方法及装置，该方法为，针对PDF文件，分别将每一页中的信息生成相应的树形结构；分别统计每一页相应的树形结构中每一个节点的信息，从每一页中识别并抽取标题、正文、图表标题和图表结尾；进行汇总，对标题进行等级划分，并根据图表标题和图表结尾对图表进行抽取，分别将正文、图表映射到相应的标题和图表标题中，最终生成PDF文件的结构化数据，这样，可以对PDF文件中的标题、正文、图表等进行结构化抽取，进行精细解析和对图表信息的有效抽取，为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持，极大的简化了用户分析研报内容的时间。

Description

一种PDF文件的信息抽取方法及装置

技术领域

本发明涉及信息处理领域，尤其涉及一种PDF文件的信息抽取方法及装置。

背景技术

为了方便行业分析师从众多行业研报中检索到想要的行业领域报告内容及从大量研报内容中挖掘出质量最优、最能代表行业分析现状的内容片断，需要对行业研报中的内容进行精细的结构化，识别每个标题所属的父子标题，内容片断，图表内容等信息并将其有机组织起来。

现有技术中，针对行业研报的PDF文件的信息抽取，都主要是针对其中的文本数据进行处理，没有较好的可以解析PDF文件中图片和表格的方法，特别针对行业研报的pdf文件，目前还未有对其进行精细解析和图表数据抽取的解决方案。

发明内容

本发明实施例提供一种PDF文件的信息抽取方法及装置，以解决现有技术中不能对PDF文件的信息内容进行精细解析和对图表信息的有效抽取的问题。

本发明实施例提供的具体技术方案如下：

一种PDF文件的信息抽取方法，包括：

针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构；

针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对；

汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果；

根据PDF文件的汇总结果，生成所述PDF文件的结构化数据。

较佳的，进一步包括：

获取PDF文件，并针对所述PDF文件按页分解，分别生成每一页对应的新的PDF文件；

分别获取每一页对应的新的PDF文件的宽度和高度；

按照每一页对应的新的PDF文件的宽度和高度，分别将每一页对应的新的PDF文件放大预设倍数后，转换成相应的图片。

较佳的，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，具体包括：

分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度；

分别统计每一页相应的树形结构在预设范围内的节点的信息，并将每一页中的预设范围内的信息进行对比，根据每一页中的预设范围内的信息的相似度，确定每一页的头部和尾部的位置；

根据每一页的头部和尾部的位置、每一页中正文的位置，分别从每一页中识别并抽取包含正文的主体文本；

从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落；

根据预设的正则表达式，分别从每一页中识别并抽取图表标题和图标结尾。

较佳的，分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度，具体包括：

分别统计每一页相应的树形结构中的行文本节点的X轴偏移量和高度，将相同X轴偏移量和高度的行文本数量最大，对应的X轴偏移量和高度作为每一页中正文的X轴偏移量和高度；其中，位置至少包括相对于预设的坐标原点的X轴偏移量。

较佳的，从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落，具体包括：

根据高度、宽度、上下文本的距离是否有标题的标识，将符合预设策略的主体正文作为识别出的标题标题；其中，预设策略为以下一种或任意组合：高度大于正文高度+1且小于30、与上一个文本距离大于9且与下一个文本距离大于9且有标题标识、与上一个文本距离大于10且高度为正文高度且宽度小于下一行文本宽度的60％；

根据换行符节点的信息、上下文本距离和图表标题，将正文划分成各个段落；

针对识别并抽取出的标题和段落，根据设定的条件，将误识别的标题进行过滤。

较佳的，根据标题的高度和样式，对标题进行等级划分，具体包括：

根据标题的样式，将标题的样式相同的标题归为一个类别，获得归于各个类别的标题；

根据标题的高度，按照标题的高度由大到小的顺序，确定各个类别的标题之间的等级关系，对标题进行等级划分。

较佳的，根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，具体包括：

根据配对的图表标题和图表结尾的位置，确定图表是否跨页，若是，则分别计算跨页的图表在各个相应的页中的位置，否则，则分别计算每一页中的图表的位置；

根据图表的位置，分别从每一页相应的图片中识别并抽取图表，并针对跨页的图表进行拼接，获得最终的图表。

较佳的，进一步包括：

根据实际需求，将所述PDF文件的结构化数据保存到相应的的数据库中。

一种PDF文件的信息抽取装置，包括：

页面解析单元，用于根据整体解析单元生成的树形结构，针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对；

整体解析单元，用于针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构，并汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果，根据PDF文件的汇总结果，生成所述PDF文件的结构化数据。

较佳的，进一步包括，预处理单元，用于：

分别获取每一页对应的新的PDF文件的宽度和高度；

较佳的，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾时，

整体解析单元，具体用于分别统计每一页相应的树形结构在预设范围内的节点的信息，并将每一页中的预设范围内的信息进行对比，根据每一页中的预设范围内的信息的相似度，确定每一页的头部和尾部的位置，并将每一页的头部和尾部的位置发送给页面解析单元；

页面解析单元具体用于：

根据整体解析单元发送的每一页的头部和尾部的位置、每一页中正文的位置，分别从每一页中识别并抽取包含正文的主体文本；

较佳的，分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度时，页面解析单元具体用于：

较佳的，从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落时，页面解析单元具体用于：

较佳的，根据标题的高度和样式，对标题进行等级划分时，整体解析单元具体用于：

较佳的，根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表时，所述装置还包括图片切割单元，其中，

整体解析单元，具体用于根据配对的图表标题和图表结尾的位置，确定图表是否跨页，若是，则分别计算跨页的图表在各个相应的页中的位置，否则，则分别计算每一页中的图表的位置，并将图表的位置发送给图片切割单元；

图片切割单元，用于根据图表的位置，分别从每一页相应的图片中识别并抽取图表，并针对跨页的图表进行拼接，获得最终的图表。

较佳的，进一步包括：

输出单元，用于根据实际需求，将所述PDF文件的结构化数据保存到相应的的数据库中。

本发明实施例的有益效果如下：

本发明实施例中，针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构；针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对；汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果；根据PDF文件的汇总结果，生成所述PDF文件的结构化数据，这样，可以对研报行业的PDF文件中的标题、正文、图表等进行结构化抽取，能够对PDF文件的信息内容进行精细解析和对图表信息的有效抽取，为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持，极大的简化了行业分析师分析研报内容的时间。

附图说明

图1为本发明实施例中，PDF文件的信息抽取装置结构示意图；

图2为本发明实施例中，PDF文件的信息抽取装置消息交互时序图；

图3为本发明实施例中，PDF文件的信息抽取方法概述流程图；

图4为本发明实施例中，DomTree的结构示意图；

图5为本发明实施例中，PDF文件的结构化数据对应的树形结构；

图6为本发明实施例中，整体解析单元的执行过程详细流程图；

图7为本发明实施例中，页面解析单元的执行过程详细流程图；

图8为本发明实施例中，PDF文件中信息解析结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中不能对PDF文件的信息内容进行精细解析和对图表信息的有效抽取的问题，本发明实施例中，针对PDF文件，识别并抽取标题、正文、图片、表格(其中，本发明实施例中，以下统一将图片和表格，统称为“图表”)，并按照PDF文件中的顺序结构将其组织起来，最终生成结构化数据。

下面通过具体实施例对本发明方案进行详细描述，当然，本发明并不限于以下实施例。

参阅图1所示，本发明实施例中，PDF文件的信息抽取装置，包括：

预处理单元10，用于获取PDF文件，并针对所述PDF文件按页分解，分别生成每一页对应的新的PDF文件，并分别获取每一页对应的新的PDF文件的宽度和高度，以及按照每一页对应的新的PDF文件的宽度和高度，分别将每一页对应的新的PDF文件放大预设倍数后，转换成相应的图片。

整体解析单元11，用于针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构，并汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果，根据PDF文件的汇总结果，生成所述PDF文件的结构化数据。

页面解析单元12，用于根据整体解析单元11生成的树形结构，针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对。

图片切割单元13，用于根据整体解析单元11发送的图表的位置对图表进行抽取，并将抽取的图表保存到本地。

输出单元14，用于根据实际需求，将PDF文件的结构化数据保存到相应的的数据库中。

其中，预处理单元10与整体解析单元11连接，预处理单元10还会输出pdf文件和图片文件，整体解析单元11分别与页面解析单元12、图片切割单元13、输出单元14连接，页面解析单元12会读取图片文件并且生成切分后的文件。

整体解析单元11，具体用于分别统计每一页相应的树形结构在预设范围内的节点的信息，并将每一页中的预设范围内的信息进行对比，根据每一页中的预设范围内的信息的相似度，确定每一页的头部和尾部的位置，并将每一页的头部和尾部的位置发送给页面解析单元12；

页面解析单元12具体用于：

根据整体解析单元11发送的每一页的头部和尾部的位置、每一页中正文的位置，分别从每一页中识别并抽取包含正文的主体文本；

较佳的，分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度时，页面解析单元12具体用于：

较佳的，从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落时，页面解析单元12具体用于：

较佳的，根据标题的高度和样式，对标题进行等级划分时，整体解析单元11具体用于：

较佳的，根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表时，所述装置还包括图片切割单元13，其中，

整体解析单元11，具体用于根据配对的图表标题和图表结尾的位置，确定图表是否跨页，若是，则分别计算跨页的图表在各个相应的页中的位置，否则，则分别计算每一页中的图表的位置，并将图表的位置发送给图片切割单元13；

图片切割单元13，用于根据图表的位置，分别从每一页相应的图片中识别并抽取图表，并针对跨页的图表进行拼接，获得最终的图表。

参阅图2所示，本发明实施例中，PDF文件的信息抽取装置消息交互时序图。

步骤200：预处理单元获取PDF文件。

步骤201：预处理单元将预处理后获得的每一页对应的新的PDF文件发送给整体解析单元。

步骤202：整体解析单元分别针对每一页对应的新的PDF文件生成DomTree，并发送给页面解析单元。

步骤203：页面解析单元分别统计每一个DomTree中每一个节点的信息，并发送给整体解析单元。

步骤204：整体解析单元根据页面解析单元发送的统计的节点的信息，计算每一页的头部和尾部的位置，并发送给页面解析单元。

步骤205：页面解析单元将每一页的解析结果(即结构化数据)发送给整体解析单元。

步骤206：整体解析单元将图表的位置发送给图片切割单元。

步骤207：整体解析单元生成整篇的PDF文件的结构化数据，并发送给输出单元。

步骤208：输出单元将PDF文件的结构化数据保存到相应数据库。

也就是说，首先，通过预处理单元对PDF文件进行预处理。

然后，通知整体解析单元对PDF文件的每一页相应的新的PDF文件，分别生成DomTree，并交给页面解析单元进行DomTree的统计分析。

然后，页面解析单元将每一页的解析结果发送给整体解析单元，并由整体解析单元汇总每一页解析的标题、图表、正文，生成PDF文件的标题、正文、图表的结构化数据，以及将图表的位置发送给图片切割单元进行图表的抽取。

最后，整体解析单元将结构化数据发送给输出单元，输出单元根据不同的需求，封装成不同类型的结构并保存到相应的数据库中。

例如，为mongodb、mysql、redis三种类型的数据库。

本发明实施例中，上述具体的实现方法，在后续PDF文件的信息抽取方法中会进行详细介绍，这里就不再进行详述了。

参阅图3所示，本发明实施例中，PDF文件的信息抽取方法的具体流程如下：

步骤300：针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构。

其中，所述树形结构(DomTree)中的每一个节点，是根据PDF文件的每一页中的信息的类型进行划分的。

参阅图4所示，为DomTree的结构示意图。

其中，LTPage为整个页的节点；

LTTextBox为文本容器，其中可以包含一条或多条LTTextLine节点；

LTTextLine为每行文本段容器，其中可以包含一条或多条LTChar、LTText、LTAnno节点；

LTChar为每个字的节点；

LTAnno为文本中字母实际上被表示为Unicode字符串的节点；

LTText为换行的节点；

LTFigure为图片区域的容器，其中可以包含一个或多个LTImage；

LTImage为图片节点，其中可以包含一个或多个LTCruve节点；

LTCruve为曲线节点；

LTLine为直线节点；

LTRect为矩形节点。

其中，容器节点都会包含width、height、x0、y0、x1、y1等属性；其中，width表示为容器的宽度、height表示为容器的高度、x0为容器左下角在整个页面中的X轴偏移、y0为容器左下角在整个页面中的Y轴偏移，x1为容器右上角在整个页面中的X轴偏移、y1为容器右上角在整个页面中的Y轴偏移，并且，本发明实施例中，页面以左下角为(0,0)坐标，横向为X轴，纵向为Y轴。

执行步骤300之前，进一步地，对PDF文件进行预处理，具体包括：

首先，获取PDF文件，并针对所述PDF文件按页分解，分别生成每一页对应的新的PDF文件。

例如，获取到行业研报的PDF文件，使用pypdf的接口对PDF文件按页进行分解，将每一页分别生成一个新的PDF文件，并进行保存。

然后，分别获取每一页对应的新的PDF文件的宽度和高度。

例如，使用pdfminer的接口来分别获得到每一页对应的新的PDF的宽度(width)和高度(height)。

最后，按照每一页对应的新的PDF文件的宽度和高度，分别将每一页对应的新的PDF文件放大预设倍数后，转换成相应的图片。

这是因为，每一页对应的新的PDF文件的宽度和高度可能不是很大，在后续进行图表的切割抽取时，不方便，也不容易找到相应的位置，得到的结果可能会不准确。

例如，使用ImageMagic，将每一页相应的新的pdf文件按照其宽度和高度放大预设倍数，例如放大5倍，并设置wand.image的参数resolution＝500，后转换成相应的图片，并将生成的图片进行保存。

其中，pypdf、pdfminer和ImageMagic为python的第三方软件包中的工具，当然，也可以采用其它方法来实现PDF文件的预处理过程，本发明实施例中，并不进行限制。

这样，将PDF文件预处理之后，就可以通知整体解析单元开始解析PDF文件了。

这样，对PDF文件进行预处理之后，执行步骤300时，通过pdf解析引擎，将PDF文件的每一页，分别生成树形结构，例如，使用pdfminer对每一页对应的新的PDF文件，分别生成相应的DomTree。

具体地如何使用pdfminer生成DomTree，可以采用现有的技术方法，本发明实施例中就不再详细赘述了。

步骤310：针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对。

执行步骤310时，具体包括：

首先，分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度。

其中，确定的正文的位置，较佳的是，正文的X轴偏移量。

具体地，统计x0坐标上的LTTextLine容器、统计相同高度的LTTextLine容器，计算行文本数量最大对应的x0和height，并将其作为正文的X轴偏移量和正文的高度。

然后，分别统计每一页相应的树形结构在预设范围内的节点的信息，并将每一页中的预设范围内的信息进行对比，根据每一页中的预设范围内的信息的相似度，确定每一页的头部和尾部的位置。

具体为：1)分别统计每一页相应的树形结构在预设范围内的节点的信息；

例如，分别统计每一页的Y轴上1/5的LTRect、LTFigure、LTLine容器、统计每一页Y轴下1/5的LTRect、LTFigure、LTLine容器。

2)计算每一页中的预设范围内的信息的相似度，确定每一页的头部和尾部的位置。

具体地：计算每一页的上部1/5容器和下部1/5容器的信息的相似度，即统计x0、y0、x1、y1均相同的LTRect、LTFigure、LTLine容器数量，在相似度大于整个PDF文件的页数的80％的容器中，计算每一页的头部的位置(即容器中y0最小的容器)和尾部的位置(即y1最大的容器)。

其中，值得说明的是，确定每一页的头部和尾部的位置，是由整体解析单元来执行的，因为需要汇总每一页中的信息，之后，就可以将计算的每一页的头部和尾部的位置，发送给各个页面解析单元，以使其执行后续的步骤。

然后，根据每一页的头部和尾部的位置、每一页中正文的位置，分别从每一页中识别并抽取包含正文的主体文本。

具体为：将在头部和尾部的位置之间，并且在X轴偏移量的前后100个像素点之间的信息，确定为识别出的包含正文的主体文本。

然后，从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落。

具体为：1)首先，根据高度、宽度、上下文本的距离是否有标题的标识(例如数字、中文数字开头)等特征，识别是否为标题，将符合预设策略的主体正文作为识别出的标题，其中，预设策略具体地例如为：1、高度大于正文高度+1且小于30；2、与上一个文本距离大于9且与下一个文本距离大于9且有标题标识；3、与上一个文本距离大于10且高度为正文高度且宽度小于下一行文本宽度的60％等。

其中，上述预设策略中各个数值的设定，仅是一种较佳的方式，也可以根据实际需求设定不同的数值的大小。

当然，本发明实施例中，并不仅限于上述预设策略，也可以根据PDF文件中的标题的特点，设定多种不同的策略。

2)然后，根据换行符节点的信息、上下文本距离和图表标题等特征，将正文划分成各个段落。

3)最后，针对识别并抽取出的标题和段落，对一些误识别的标题进行过滤，例如，连续4行全部识别为标题、或标题中存在多个空格或制表符等。

最后，根据预设的正则表达式，分别从每一页中识别并抽取图表标题和图标结尾，并根据预设规则，将图标标题和图标结尾进行配对。

具体为：针对每一页中的每行文本节点的信息，通过预设的正则表达式来判断是否为图表标题或图表结尾，并将其按顺序记录下来。根据图表标题和图表图片结尾的左下角坐标(x0,y0)，基于欧式距离最近的方法，对其进行配对，并按图表标题的出现顺序进行排列。

值得说明的是，对于行业研报的PDF文件，一般图表标题或图表结尾都有其固定的格式或样式，因此，可以综合行业研报的PDF文件的特点，来设定上述正则表达式。

也就是说，步骤310，主要是对PDF文件的每一页中的信息的抽取，获得每一页中的正文、图表标题、图标结尾、标题等信息。

步骤320：汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果。

首先，汇总从每一页中识别并抽取的标题，根据标题的高度和样式，将标题划分为不同的等级。

具体为：根据标题的样式，将标题的样式相同的标题归为一个类别，获得归于各个类别的标题；并根据标题的高度，按照标题的高度由大到小的顺序，确定各个类别的标题之间的等级关系，对标题进行等级划分。

例如，以一、二…开头、或以(一)、(二)…开头、或以1、2…开头，或以1.1、1.2…开头等相同的标题的样式(命名规则)，作为一类，并根据标题的高度由大到小确定标题的包含关系，由大到小共设置5级标题，进而将标题划分为不同的等级，即生成标题的层级关系。

然后，根据标题的等级和位置，将正文划分的各个段落，分别映射到相应的标题中。

具体为：按顺序遍历每一页中的正文划分的各个段落，根据标题等级的不同和位置，将正文划分的各个段落映射到和自身位置最相近的标题中。

然后，根据配对的图表标题和图表结尾的位置，计算图表的位置，并根据图表的位置，分别从每一页相应的图片中识别并抽取图表。

具体为：1)根据配对的图表标题和图表结尾的位置，确定图表是否跨页，若是，则分别计算跨页的图表在各个相应的页中的位置，否则，则分别计算每一页中的图表的位置。

也就是说，按每一页的顺序汇总配对的图表标题和图标结尾，统计X轴的偏移量相同的图表，根据图表的首位的位置，计算出图表在页面中的左上角和右下角的坐标。进一步地，其中，针对跨页的图表，再分别计算其左上角和右下角的坐标。

2)根据图表的位置，分别从每一页相应的图片中识别并抽取图表，并针对跨页的图表进行拼接，获得最终的图表。

例如，根据图表的坐标，通过ImageMagic的切图接口，从每一页相应的图片中识别并抽取图表，并对于跨页的图表进行拼接，生成最终的图表。

最后，将抽取出的图表分别映射到相应图表标题中。

步骤330：根据PDF文件的汇总结果，生成所述PDF文件的结构化数据。

具体为：根据PDF文件的汇总结果，生成树形结构，即获得PDF文件的标题、正文、图表的结构化数据。其中，参阅图5所示，为PDF文件的结构化数据对应的树形结构，该树形结构，即根据标题的层级关系，及正文、图表标题、图表结尾、图表在各个标题的映射关系，生成的一个多叉树结构，其高度例如为7，根节点为PDF文件的文件名，逐级向下是每级的标题，叶子节点为内容(即正文划分的各个段落、图表标题和图表结尾)。

进一步地，根据不同需求，保存到不同的数据库中。

例如，可转换为json格式存入mongodb中，或转换为每行数据存入mysql中，或转为thrift数据类型序列化后按key-value类型存入redis中。

基于上述实施例，下面采用几个具体的应用场景，分别对整体解析单元和页面解析单元的具体执行过程，进行详细说明。

参阅图6所示，本发明实施例中，整体解析单元的具体执行过程：

步骤600：将PDF文件按页通过pdfminer接口生成DomTree。

步骤601：将DomTree发送到页面解析单元进行统计分析。

步骤602：计算页面中信息(图片和线条)的相似度，确定每一页的头部和尾部的位置。

步骤603：将头部和尾部的位置发送给页面解析单元进行信息抽取。

步骤604：汇总标题的抽取结果，对标题进行分级。

步骤605：根据标题的等级，确定标题间映射关系。

步骤606：汇总图表标题和图表结尾。

步骤607：判断图表是否跨页，若是，则执行步骤609，否则，则执行步骤608。

步骤608：计算同一页中图表的位置，发送给图片切割单元。

步骤609：计算多页中图表的位置，发送给图片切割单元。

步骤610：根据汇总结果，生成PDF文件的结构化数据。

参阅图7所示，本发明实施例中，页面解析单元的具体执行过程：

步骤700：遍历DomTree中的每一个节点。

步骤701：分别统计每一个节点的信息的X轴偏移量和高度。

步骤702：计算正文的X轴偏移量。

步骤703：根据X轴偏移量，分别从每一页中抽取正文。

步骤704：通过预设的正则表达式，识别图表标题和图表结尾。

步骤705：过滤并映射图表标题和图表结尾，获得配对的图表标题和图表结尾。

步骤706：统计抽取的正文的高度。

步骤707：识别标题，并将正文划分成各个段落。

步骤708：标题过滤。

基于上述实施例，以PDF文件中的一页为例，参阅图8所示，为本发明实施例中，PDF文件中信息解析结果示意图。

其中，图8为行业研报领域中某PDF文件中其中一页的包含的信息。可知，基于本发明实施例，可以识别并抽取PDF文件中的标题、正文、图表标题、图表结尾等信息，即能够对PDF文件中的信息进行精细解析，便于用户进行搜索、统计、信息挖掘等应用。

综上所述，本发明实施例中，针对PDF文件，分别获取所述PDF文件的每一页中的信息，并根据信息的类型，分别将每一页中的信息生成相应的树形结构；针对每一页相应的树形结构，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，并根据预设规则，将图标标题和图标结尾进行配对；汇总从每一页中识别并抽取的标题、正文、配对的图表标题和图表结尾，根据标题的高度和样式，对标题进行等级划分，并根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，以及分别将正文、图表映射到相应的标题和图表标题中，获得PDF文件的汇总结果；根据PDF文件的汇总结果，生成所述PDF文件的结构化数据，这样，可以对研报行业的PDF文件中的标题、正文、图表等进行结构化抽取，能够对PDF文件的信息内容进行精细解析和对图表信息的有效抽取，为实现行业研报垂直领域的搜索、信息精确定位及内容挖掘提供数据支持，极大的简化了行业分析师分析研报内容的时间。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种PDF文件的信息抽取方法，其特征在于，包括：

根据PDF文件的汇总结果，生成所述PDF文件的结构化数据。

2.如权利要求1所述的方法，其特征在于，进一步包括：

分别获取每一页对应的新的PDF文件的宽度和高度；

3.如权利要求1或2所述的方法，其特征在于，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾，具体包括：

4.如权利要求3所述的方法，其特征在于，分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度，具体包括：

5.如权利要求3所述的方法，其特征在于，从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落，具体包括：

6.如权利要求1、2、4或5所述的方法，其特征在于，根据标题的高度和样式，对标题进行等级划分，具体包括：

7.如权利要求2所述的方法，其特征在于，根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表，具体包括：

8.如权利要求1所述的方法，其特征在于，进一步包括：

9.一种PDF文件的信息抽取装置，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于，进一步包括，预处理单元，用于：

分别获取每一页对应的新的PDF文件的宽度和高度；

11.如权利要求9或10所述的装置，其特征在于，分别统计每一页相应的树形结构中每一个节点的信息，根据每一个节点的信息的位置、高度、宽度，分别从每一页中识别并抽取每一页中的标题、正文、图表标题、图表结尾时，

页面解析单元具体用于：

12.如权利要求11所述的装置，其特征在于，分别统计每一页相应的树形结构中的行文本节点的位置和高度，确定每一页中正文的位置和高度时，页面解析单元具体用于：

13.如权利要求11所述的装置，其特征在于，从抽取的包含正文的主体文本中识别出标题，并将正文划分成各个段落时，页面解析单元具体用于：

14.如权利要求9、10、12或13所述的装置，其特征在于，根据标题的高度和样式，对标题进行等级划分时，整体解析单元具体用于：

15.如权利要求10所述的装置，其特征在于，根据配对的图表标题和图表结尾的位置，分别从每一页中识别并抽取图表时，所述装置还包括图片切割单元，其中，

16.如权利要求9所述的装置，其特征在于，进一步包括：