CN109670477B

CN109670477B - 面向pdf表格的自动识别系统和方法

Info

Publication number: CN109670477B
Application number: CN201811627644.8A
Authority: CN
Inventors: 张长虹; 冯卫强; 张友豪; 罗万昆; 王瑞; 贺晓燕
Original assignee: Shanghai Financial China Information & Technology Co ltd
Current assignee: Shanghai Financial China Information & Technology Co ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2021-02-26
Anticipated expiration: 2038-12-28
Also published as: CN109670477A

Abstract

本发明提供一种面向PDF表格的自动识别系统和方法，扫描PDF格式的报表，识别出PDF文件中的表格内容、文字内容；完整保留原始表格样式，根据业务需求解析表格内容，对原始表格样式进行调整，得到调整后表格样式；自动识别表格内容中的文本和表头，以结构化形式输出，对得到的结构化入库数据进行筛选，根据业务需求过滤无效信息，校验表头各个科目数据的业务平衡性，得到校验合格数据并录入数据库；根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格。实现PDF公告文件中表格的自动识别，结合实际金融业务处理的需求对表格进行个性化调整，解决现阶段数据快速增长报表处理速度问题。

Description

面向PDF表格的自动识别系统和方法

技术领域

本发明涉及数字媒体加工技术领域，具体地，涉及面向PDF表格的自动识别系统和方法。

本发明涉及加工技术领域，更具体的说，涉及解析PDF文件方法及系统。

背景技术

互联网的飞速发展催生了大数据时代的来临，数据信息庞大且繁杂,其中金融行业一直是大数据的重要产生者和消费者。随着上市公司、发债机构的大量增加，导致每天需要处理的信息呈爆发式增长，原有的手工+程序处理方式，已经远远无法达到现阶段的要求，其中就有财务PDF公告的信息处理。

Solid Converter是一套专门将PDF文件转换成DOC的软件，除了转换成DOC文件外，还可以转换成RTF以及Word XML文件。除此之外，Solid Converter还有一个图片撷取功能，可以让我们将PDF档里的图片撷取出来，以及将PDF档里的表格撷取出来，并输出到Excel里，方便我们编辑表格里的资料。

但对于比较复杂的企业财务信息，不仅要把表格撷取出来，还要满足金融行业实际的业务需求对表格进行分析，并且能够快速、准确识别处理文件中的表格、文字、图片等内容，满足不断快速增长的数据处理需求。因此需要提供一种能够自动识别PDF表格，且实现金融业务处理，解决现阶段数据快速增长系统处理速度的问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种面向PDF表格的自动识别系统和方法。

根据本发明提供的一种面向PDF表格的自动识别系统，包括：

识别表格模块：扫描PDF格式的报表，识别出PDF文件中的表格内容、文字内容；

抽取表格模块：完整保留原始表格样式，根据业务需求解析表格内容，对原始表格样式进行调整，得到调整后表格样式；

识别文字模块：自动识别表格内容中的文本和表头，将文本和表头以结构化形式输出，得到结构化入库数据；

筛选校验模块：对结构化入库数据进行筛选，根据业务需求过滤无效信息，校验表头各个科目数据的业务平衡性，得到校验合格数据并录入数据库；

表格展示模块：根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格。

优选地，所述扫描PDF格式的报表是通过二进制读取的方式进行，根据读取得到的一个或多个内容流，进行创建虚拟内容流，并对虚拟内容流创建内容索引号，每个内容流通过关键字参数顶到到所需的内容索引号。

优选地，所述调整后表格样式是通过对原始表格样式的合并与补全，采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。

优选地，所述识别表格内容基于深度学习，深度学习通过财务报表数据库进行。

优选地，所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。

根据本发明提供的一种面向PDF表格的自动识别方法，包括：

识别表格步骤：扫描PDF格式的报表，识别出PDF文件中的表格内容、文字内容；

抽取表格步骤：完整保留原始表格样式，根据业务需求解析表格内容，对原始表格样式进行调整，得到调整后表格样式；

识别文字步骤：自动识别表格内容中的文本和表头，将文本和表头以结构化形式输出，得到结构化入库数据；

筛选校验步骤：对结构化入库数据进行筛选，根据业务需求过滤无效信息，校验表头各个科目数据的业务平衡性，得到校验合格数据并录入数据库；

表格展示步骤：根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格。

与现有技术相比，本发明具有如下的有益效果：

1、实现PDF公告文件中表格的自动识别，结合实际金融业务处理的需求对表格进行个性化调整，解决现阶段数据快速增长报表处理速度的问题；

2、PDF识别速度大幅提高，一个PDF由原来的2-5分钟，缩短至10秒左右，可识别虚线图片表格；

3、支持个性化的表格样式调整，实现各类财务报表中图片的快速识别和结构化入库。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为PDF表格的自动识别系统流程图；

图2为PDF表格抽取后的实现效果示意图；

图3为本发明的实现效果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实现PDF公告文件中表格的自动识别，结合实际金融业务处理的需求对表格进行个性化调整，解决现阶段数据快速增长系统处理速度的问题，同时提升公司处理季度、年度财务报告的能力，节省公司人力成本，提升效率，为客户提供更高效、及时、准确的相关数据服务。

根据本发明提供的一种面向PDF表格的自动识别系统，包括：

具体地，所述扫描PDF格式的报表是通过二进制读取的方式进行，根据读取得到的一个或多个内容流，进行创建虚拟内容流，并对虚拟内容流创建内容索引号，每个内容流通过关键字参数顶到到所需的内容索引号。

具体地，所述调整后表格样式是通过对原始表格样式的合并与补全，采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。

具体地，所述识别表格内容基于深度学习，深度学习通过财务报表数据库进行。

具体地，所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。

根据本发明提供的一种面向PDF表格的自动识别方法，包括：

本发明提供的面向PDF表格的自动识别系统，可以通过面向PDF表格的自动识别方法的步骤流程实现。本领域技术人员可以将面向PDF表格的自动识别方法理解为所述面向PDF表格的自动识别系统的优选例。

PDF文件格式以其安全可靠，易于交换，及保真度高而成为电子文档的标准。本发明主要面向PDF文档，对特定内容的检索、识别、抽取、筛选、校验、入库等，以二进制读取的方式对文件进行解析，并通过遍历所有的对象及流对象，构建PDF页内容，解析PDF页面上内容,最终将处理后的数据内容并入数据库。

如图1所示，本发明在PDF识别的实现方面，用于对企业按季度、年度披露的PDF格式的财务报表进行扫描，识别出PDF文件中的表格及文字内容；在表格抽取的实现方面，用于对PDF财务公告中的表格进行解析，完整保留原PDF财务公告中的表格样式，同时可以生成根据业务需求调整后的表格样式；在文字识别方面，自动识别PDF财务公告图片中的文字，结构化输出相关的文字内容及表头等内容；在数据筛选与校验方面，将表格抽取出的数据进行筛选，自动过滤无效信息，由于财务数据准确性要求非常高，需要对筛选出的数据进行数据校验，以保证数据的准确性。

在具体的实施过程中，由于扫描的是PDF文件，一个PDF文件从大的方面来说分4个部分，文件头、文件体、交叉引用表和文件尾。其中，文件头，指明了该文件所遵从的PDF规范的版本号，它出现在PDF文件的第一行。文件体，PDF文件的主要部分，由一系列对象组成。交叉引用表，为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。文件尾，声明了交叉引用表的地址，即指明了文件体的概对象(Catalog)，从而能够找到PDF文件中各个对象体的位置，达到随机访问。另外还保存了PDF文件的加密等安全信息。程序以二进制读取的方式打开PDF文件(一次一个字节)。文件分析开始于检查头部签名和结尾签名。分析完成后，拥有所有的间接对象的数组，接下来遍历所有的对象，并处理流对象。程序读取和对象相关联的流，并分解流到多个间接对象上。程序跟随从根开始的页面树来构建页内容。页对象不是流对象，页对象字典有/Contents的键值对，程序将为来自于一个或多个内容流的页面创建虚拟的内容流。最后，程序从每个内容流通过关键字参数定位到所需内容索引号。然后进行表格抽取，通过动态提取处理及优化转换数据，过滤无效信息，提取表格及文本数据，智能判断合并与补全表格，识别虚线图片表格，构成PDF中完整表格样式。并采用自动全局阈值和动态阈值相结合的方法实现图像区域和背景区域的分割，优化对图片表格的识别。支持生成个性化表格样式，对表格进行拆分，以便根据实际的业务需求进行采集解析，并提高PDF识别的速度。实现效果如图2所示，图2中的左侧表格是PDF表格，右侧表格是经过处理的表格。在文字识别时，自动识别PDF财务公告图片中的文字，结构化输出相关的文字内容及表头等内容，基于深度学习技术，依托海量优质数据，提高精度，并实现各类财务报表图片的快速识别和结构化入库。实现效果可参考图3，图3的图片截图是参照百度云的文字识别，图3中的左侧表格是图片形式，右侧表格是经过转换后的内容生成财务表格的形式。在数据筛选与校验中，通过解析科目，检测其是否为必备科目，若已有必备科目，则跳过，动态提取处理转换的数据，过滤无效信息。同时对相关科目数据进行平衡校验，对主要财务数据进行勾稽关系校验,如资产负债表、现金流量表、利润表等，将校验合格的数据自动录入数据库。其中，科目是对财务相关的要素具体内容进行分类，如“应收账款”，“应付账款”等。必备科目一般以财务的三大报表为准，同时结合实际的业务判断是否需要加入其他财务要素，如需要则视为必备科目。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种面向PDF表格的自动识别系统，其特征在于，包括：

表格展示模块：根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格；

PDF文件分为4个部分，文件头、文件体、交叉引用表和文件尾；其中，文件头，指明该PDF文件所遵从的PDF规范的版本号，出现在PDF文件的第一行；文件体，由多个对象组成；交叉引用表，为间接对象的地址索引表；文件尾，声明交叉引用表的地址，从而能够找到PDF文件中各个对象的位置；

面向PDF表格的自动识别系统以二进制读取的方式打开PDF文件进行文件分析；

文件分析开始于检查头部签名和结尾签名；

分析完成后，拥有所有的间接对象的数组，接下来遍历所有的对象，并处理流对象；

面向PDF表格的自动识别系统读取和对象相关联的流，并分解流到多个间接对象上；

面向PDF表格的自动识别系统跟随从根开始的页面树来构建页内容；页对象字典有/Contents的键值对，面向PDF表格的自动识别系统将为来自于一个或多个内容流的页面创建虚拟的内容流；

最后，面向PDF表格的自动识别系统从每个内容流通过关键字参数定位到所需内容索引号；

然后进行表格抽取，通过动态提取处理及优化转换数据，过滤无效信息，提取表格及文本数据，智能判断合并与补全表格，识别虚线图片表格，构成PDF中完整表格样式；并采用自动全局阈值和动态阈值相结合的方法实现图像区域和背景区域的分割，优化对图片表格的识别；

面向PDF表格的自动识别系统支持生成个性化表格样式，对表格进行拆分；

在文字识别时，自动识别PDF文件中的文字，结构化输出相关的内容，基于深度学习技术，实现各类财务报表图片的快速识别和结构化入库；在数据筛选与校验中，通过解析科目，检测其是否为必备科目，若已有必备科目，则跳过，动态提取处理转换的数据，过滤无效信息；同时对相关科目数据进行平衡校验，对主要财务数据进行勾稽关系校验,将校验合格的数据自动录入数据库；

其中，科目是对财务相关的要素具体内容进行分类；必备科目以财务的三大报表为准，同时结合实际的业务判断是否需要加入其他财务要素，如需要则视为必备科目。

2.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述扫描PDF格式的报表是通过二进制读取的方式，根据读取得到的一个或多个内容流创建虚拟内容流，并对虚拟内容流创建内容索引号，每个内容流通过关键字参数定位到所需的内容索引号。

3.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述调整后表格样式是通过对原始表格样式的合并与补全，采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。

4.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述识别表格内容基于深度学习，深度学习通过财务报表数据库进行。

5.根据权利要求1所述的面向PDF表格的自动识别系统，其特征在于，所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。

6.一种面向PDF表格的自动识别方法，其特征在于，包括：

表格展示步骤：根据原始表格样式或者调整后表格样式对校验合格数据进行展示，并提供表格下载，得到excel格式的表格；

文件分析开始于检查头部签名和结尾签名；

7.根据权利要求6所述的面向PDF表格的自动识别方法，其特征在于，所述扫描PDF格式的报表是通过二进制读取的方式，根据读取得到的一个或多个内容流创建虚拟内容流，并对虚拟内容流创建内容索引号，每个内容流通过关键字参数定位到所需的内容索引号。

8.根据权利要求6所述的面向PDF表格的自动识别方法，其特征在于，所述调整后表格样式是通过对原始表格样式的合并与补全，采用全局阈值和动态阈值相结合实现图像区域和背景区域的分割。

9.根据权利要求6所述的面向PDF表格的自动识别方法，其特征在于，所述识别表格内容基于深度学习，深度学习通过财务报表数据库进行。

10.根据权利要求6所述的面向PDF表格的自动识别方法，其特征在于，所述无效信息是根据财务报表的业务需求判定得出的重复数据或者不必要数据。