CN109065109A

CN109065109A - 一种pdf文件解析方法及系统

Info

Publication number: CN109065109A
Application number: CN201810690140.4A
Authority: CN
Inventors: 黄建峰; 罗景田; 方海英
Original assignee: Hangzhou Potential Cheng Technology Co Ltd
Current assignee: Hangzhou Potential Cheng Technology Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-21

Abstract

本发明公开了一种PDF文件解析方法及系统，该PDF文件解析方法包括：解析所述PDF文件，以得到解析后的字节；将所述字节重新组成对象；以及将所述对象进行分块，并将分块后的结果以预设的格式输出。本发明通过解析用户PDF格式的体检报告，得到解析后的字节，并将字节重组成对象，将对象进行分块，最后将分块后的结果以预设的格式输出，使用户能够通过在线查阅报告及报告解读等服务的方式，方便地在线查阅和解读其PDF格式的体检报告。本PDF文件解析系统能够更加精准地解析用户的体检报告，从而便于为用户提供更加精准的检后服务及后期健康大数据的分析，提升用户体验。

Description

一种PDF文件解析方法及系统

技术领域

本发明涉及PDF文档编辑技术领域，具体涉及一种PDF文件解析方法及系统。

背景技术

随着现有的用户健康体检平台的日趋完善，检后服务与健康大数据也成为不可缺少的一种趋势。用户体检完成后，可以在用户健康体检平台上通过在线查阅报告及报告解读等服务，方便地在线查阅和解读其体检报告。现有的体检报告主要以PDF格式存在，而PDF格式为特殊结构，现有的第三方库和技术上暂没有一套统一和完善的解析方法。因此，需要通过研发一套PDF体检数据的解析系统，便于为用户提供更加精准的检后服务及后期健康大数据的分析。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种PDF文件解析方法及系统，能够更加精准地解析用户的体检报告，从而便于为用户提供更加精准的检后服务及后期健康大数据的分析，提升用户体验。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种PDF文件解析方法，该PDF文件解析方法包括以下步骤：

解析所述PDF文件，以得到解析后的字节；

将所述字节重新组成对象；以及

将所述对象进行分块，并将分块后的结果以预设的格式输出。

根据本发明的一个实施例，解析所述PDF文件，以得到解析后的字节包括以下步骤：解析所述PDF文件的自身语言结构，并从中查找trailer标签；从所述trailer标签中查找stream流对象，并从所述stream流对象中获取char对象。

根据本发明的一个实施例，将所述字节重新组成对象包括以下步骤：将所述char对象通过相应算法重新组成对象，并设置重新组成的所述对象的相应的坐标数据和参数数据。

根据本发明的一个实施例，将分块后的结果以预设的格式输出包括以下步骤：

将分块后的结果以Text格式输出；或

将分块后的结果以JSON格式输出。

根据本发明的一个实施例，所述对象包括字符串、行、页。

根据本发明的另一方面，提供了一种PDF文件解析系统，该PDF文件解析系统包括：

解析模块，解析所述PDF文件，以得到解析后的字节；

重组模块，将所述解析模块解析得到的字节重新组成对象；

输出模块，将所述重组模块重组得到的对象进行分块，并将分块后的结果以预设的格式输出。

根据本发明的一个实施例，所述解析模块还包括：

解析子模块，解析所述PDF文件的自身语言结构，并从中查找trailer标签；

获取子模块，从所述解析子模块得到的trailer标签中查找stream流对象，并从所述stream流对象中获取char对象。

根据本发明的一个实施例，所述重组模块还包括：

设置子模块，将所述char对象通过相应算法重新组成对象，并设置重新组成的所述对象的相应的坐标数据和参数数据。

根据本发明的一个实施例，所述输出模块包括：

第一输出子模块，将分块后的结果以Text格式输出；

第二输出子模块，将分块后的结果以JSON格式输出。

根据本发明的一个实施例，所述对象包括字符串、行、页。

本发明的有益技术效果在于：

本发明提出了一种PDF文件解析方法及系统，通过解析用户PDF格式的体检报告，得到解析后的字节，并将字节重组成对象，将对象进行分块，最后将分块后的结果以预设的格式输出，使用户能够通过在线查阅报告及报告解读等服务的方式，方便地在线查阅和解读其PDF格式的体检报告。本系统能够更加精准地解析用户的体检报告，从而便于为用户提供更加精准的检后服务及后期健康大数据的分析，提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种PDF文件解析方法流程图；

图2为本发明中一种PDF文件解析系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图和具体实施方式对本发明做出详细的说明。

如图1所示，本发明实施例提供的一种PDF文件解析方法，包括以下步骤：

S1、解析PDF文件，以得到解析后的字节。

S2、将字节重新组成对象。

S3、将对象进行分块，并将分块后的结果以预设的格式输出。

根据本发明的一个实施例，步骤S1中，解析PDF文件，以得到解析后的字节，具体包括以下步骤：解析PDF文件的自身语言结构，并从中查找trailer标签；从trailer标签中查找stream流对象，并从stream流对象中获取char对象。

根据本发明的一个实施例，步骤S2中，将字节重新组成对象，具体包括以下步骤：将char对象通过相应算法重新组成对象，并设置重新组成的对象的相应的坐标数据和参数数据，其中，重新组成的对象包括字符串、行、页。在处理过程中，为了正确判断对象是否为同一行、同一字符串，首先将char对象按照y坐标降序排序，再按照x坐标升序排序，从而在排序过程中，消除了y轴坐标的误差。

根据本发明的一个实施例，步骤S3中，将分块后的结果以预设的格式输出包括以下步骤：

将分块后的结果以Text格式输出；或

将分块后的结果以JSON格式输出。

具体地，将PDF文件转换为Text格式或JSON格式，将URL链接的PDF文件转化为Text格式或JSON格式。

如图2所示，本发明实施例还提供了一种PDF文件解析系统，包括：

解析模块10，解析PDF文件，以得到解析后的字节；

重组模块20，将解析模块10解析得到的字节重新组成对象；

输出模块30，将重组模块20重组得到的对象进行分块，并将分块后的结果以预设的格式输出。

根据本发明的一个实施例，解析模块10还包括：

解析子模块101，解析PDF文件的自身语言结构，并从中查找trailer标签；

获取子模块102，从解析子模块101得到的trailer标签中查找stream流对象，并从stream流对象中获取char对象。

根据本发明的一个实施例，重组模块20还包括：

设置子模块201，将char对象通过相应算法重新组成对象，并设置重新组成的对象的相应的坐标数据和参数数据，其中，重新组成的对象包括字符串、行、页。

根据本发明的一个实施例，输出模块30包括：

第一输出子模块301，将分块后的结果以Text格式输出；

第二输出子模块302，将分块后的结果以JSON格式输出。

为了便于理解本发明的技术方案，下面对本发明的技术方案进行详细的介绍。

上传PDF文件(PDF格式的用户体检报告)至PDF文件解析系统并保存原始数据，解析PDF文件并保存解析数据，对解析数据和原始数据进行同步。从解析数据中查找是否有人工编辑标签，若存在人工编辑标签，则不同步人工编辑部分，保存解析数据；若不存在人工编辑标签，则同步所有解析数据，对解析数据进行编辑并保存。

综上所述，借助于本发明的上述技术方案，通过本发明的一种PDF文件解析方法及系统，其可通过解析用户PDF格式的体检报告，得到解析后的字节，并将字节重组成对象，将对象进行分块，最后将分块后的结果以预设的格式输出，使用户能够通过在线查阅报告及报告解读等服务的方式，方便地在线查阅和解读其PDF格式的体检报告。本系统能够更加精准地解析用户的体检报告，从而便于为用户提供更加精准的检后服务及后期健康大数据的分析，提升用户体验。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种PDF文件解析方法，其特征在于，包括以下步骤：

解析所述PDF文件，以得到解析后的字节；

将所述字节重新组成对象；以及

2.根据权利要求1所述的PDF文件解析方法，其特征在于，解析所述PDF文件，以得到解析后的字节包括以下步骤：

解析所述PDF文件的自身语言结构，并从中查找trailer标签；

从所述trailer标签中查找stream流对象，并从所述stream流对象中获取char对象。

3.根据权利要求2所述的PDF文件解析方法，其特征在于，将所述字节重新组成对象包括以下步骤：

将所述char对象通过相应算法重新组成对象，并设置重新组成的所述对象的相应的坐标数据和参数数据。

4.根据权利要求1所述的PDF文件解析方法，其特征在于，将分块后的结果以预设的格式输出包括以下步骤：

将分块后的结果以Text格式输出；或

将分块后的结果以JSON格式输出。

5.根据权利要求3所述的PDF文件解析方法，其特征在于，所述对象包括字符串、行、页。

6.一种PDF文件解析系统，其特征在于，包括：

解析模块，解析所述PDF文件，以得到解析后的字节；

重组模块，将所述解析模块解析得到的字节重新组成对象；

7.根据权利要求6所述的PDF文件解析系统，其特征在于，所述解析模块还包括：

8.根据权利要求7所述的PDF文件解析系统，其特征在于，所述重组模块还包括：

9.根据权利要求6所述的PDF文件解析系统，其特征在于，所述输出模块包括：

第一输出子模块，将分块后的结果以Text格式输出；

第二输出子模块，将分块后的结果以JSON格式输出。

10.根据权利要求8所述的PDF文件解析系统，其特征在于，所述对象包括字符串、行、页。