CN109065109A - 一种pdf文件解析方法及系统 - Google Patents
一种pdf文件解析方法及系统 Download PDFInfo
- Publication number
- CN109065109A CN109065109A CN201810690140.4A CN201810690140A CN109065109A CN 109065109 A CN109065109 A CN 109065109A CN 201810690140 A CN201810690140 A CN 201810690140A CN 109065109 A CN109065109 A CN 109065109A
- Authority
- CN
- China
- Prior art keywords
- pdf document
- piecemeal
- byte
- output
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种PDF文件解析方法及系统,该PDF文件解析方法包括:解析所述PDF文件,以得到解析后的字节;将所述字节重新组成对象;以及将所述对象进行分块,并将分块后的结果以预设的格式输出。本发明通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本PDF文件解析系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
Description
技术领域
本发明涉及PDF文档编辑技术领域,具体涉及一种PDF文件解析方法及系统。
背景技术
随着现有的用户健康体检平台的日趋完善,检后服务与健康大数据也成为不可缺少的一种趋势。用户体检完成后,可以在用户健康体检平台上通过在线查阅报告及报告解读等服务,方便地在线查阅和解读其体检报告。现有的体检报告主要以PDF格式存在,而PDF格式为特殊结构,现有的第三方库和技术上暂没有一套统一和完善的解析方法。因此,需要通过研发一套PDF体检数据的解析系统,便于为用户提供更加精准的检后服务及后期健康大数据的分析。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种PDF文件解析方法及系统,能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种PDF文件解析方法,该PDF文件解析方法包括以下步骤:
解析所述PDF文件,以得到解析后的字节;
将所述字节重新组成对象;以及
将所述对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,解析所述PDF文件,以得到解析后的字节包括以下步骤:解析所述PDF文件的自身语言结构,并从中查找trailer标签;从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
根据本发明的一个实施例,将所述字节重新组成对象包括以下步骤:将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
根据本发明的一个实施例,将分块后的结果以预设的格式输出包括以下步骤:
将分块后的结果以Text格式输出;或
将分块后的结果以JSON格式输出。
根据本发明的一个实施例,所述对象包括字符串、行、页。
根据本发明的另一方面,提供了一种PDF文件解析系统,该PDF文件解析系统包括:
解析模块,解析所述PDF文件,以得到解析后的字节;
重组模块,将所述解析模块解析得到的字节重新组成对象;
输出模块,将所述重组模块重组得到的对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,所述解析模块还包括:
解析子模块,解析所述PDF文件的自身语言结构,并从中查找trailer标签;
获取子模块,从所述解析子模块得到的trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
根据本发明的一个实施例,所述重组模块还包括:
设置子模块,将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
根据本发明的一个实施例,所述输出模块包括:
第一输出子模块,将分块后的结果以Text格式输出;
第二输出子模块,将分块后的结果以JSON格式输出。
根据本发明的一个实施例,所述对象包括字符串、行、页。
本发明的有益技术效果在于:
本发明提出了一种PDF文件解析方法及系统,通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种PDF文件解析方法流程图;
图2为本发明中一种PDF文件解析系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图和具体实施方式对本发明做出详细的说明。
如图1所示,本发明实施例提供的一种PDF文件解析方法,包括以下步骤:
S1、解析PDF文件,以得到解析后的字节。
S2、将字节重新组成对象。
S3、将对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,步骤S1中,解析PDF文件,以得到解析后的字节,具体包括以下步骤:解析PDF文件的自身语言结构,并从中查找trailer标签;从trailer标签中查找stream流对象,并从stream流对象中获取char对象。
根据本发明的一个实施例,步骤S2中,将字节重新组成对象,具体包括以下步骤:将char对象通过相应算法重新组成对象,并设置重新组成的对象的相应的坐标数据和参数数据,其中,重新组成的对象包括字符串、行、页。在处理过程中,为了正确判断对象是否为同一行、同一字符串,首先将char对象按照y坐标降序排序,再按照x坐标升序排序,从而在排序过程中,消除了y轴坐标的误差。
根据本发明的一个实施例,步骤S3中,将分块后的结果以预设的格式输出包括以下步骤:
将分块后的结果以Text格式输出;或
将分块后的结果以JSON格式输出。
具体地,将PDF文件转换为Text格式或JSON格式,将URL链接的PDF文件转化为Text格式或JSON格式。
如图2所示,本发明实施例还提供了一种PDF文件解析系统,包括:
解析模块10,解析PDF文件,以得到解析后的字节;
重组模块20,将解析模块10解析得到的字节重新组成对象;
输出模块30,将重组模块20重组得到的对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,解析模块10还包括:
解析子模块101,解析PDF文件的自身语言结构,并从中查找trailer标签;
获取子模块102,从解析子模块101得到的trailer标签中查找stream流对象,并从stream流对象中获取char对象。
根据本发明的一个实施例,重组模块20还包括:
设置子模块201,将char对象通过相应算法重新组成对象,并设置重新组成的对象的相应的坐标数据和参数数据,其中,重新组成的对象包括字符串、行、页。
根据本发明的一个实施例,输出模块30包括:
第一输出子模块301,将分块后的结果以Text格式输出;
第二输出子模块302,将分块后的结果以JSON格式输出。
为了便于理解本发明的技术方案,下面对本发明的技术方案进行详细的介绍。
上传PDF文件(PDF格式的用户体检报告)至PDF文件解析系统并保存原始数据,解析PDF文件并保存解析数据,对解析数据和原始数据进行同步。从解析数据中查找是否有人工编辑标签,若存在人工编辑标签,则不同步人工编辑部分,保存解析数据;若不存在人工编辑标签,则同步所有解析数据,对解析数据进行编辑并保存。
综上所述,借助于本发明的上述技术方案,通过本发明的一种PDF文件解析方法及系统,其可通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种PDF文件解析方法,其特征在于,包括以下步骤:
解析所述PDF文件,以得到解析后的字节;
将所述字节重新组成对象;以及
将所述对象进行分块,并将分块后的结果以预设的格式输出。
2.根据权利要求1所述的PDF文件解析方法,其特征在于,解析所述PDF文件,以得到解析后的字节包括以下步骤:
解析所述PDF文件的自身语言结构,并从中查找trailer标签;
从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
3.根据权利要求2所述的PDF文件解析方法,其特征在于,将所述字节重新组成对象包括以下步骤:
将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
4.根据权利要求1所述的PDF文件解析方法,其特征在于,将分块后的结果以预设的格式输出包括以下步骤:
将分块后的结果以Text格式输出;或
将分块后的结果以JSON格式输出。
5.根据权利要求3所述的PDF文件解析方法,其特征在于,所述对象包括字符串、行、页。
6.一种PDF文件解析系统,其特征在于,包括:
解析模块,解析所述PDF文件,以得到解析后的字节;
重组模块,将所述解析模块解析得到的字节重新组成对象;
输出模块,将所述重组模块重组得到的对象进行分块,并将分块后的结果以预设的格式输出。
7.根据权利要求6所述的PDF文件解析系统,其特征在于,所述解析模块还包括:
解析子模块,解析所述PDF文件的自身语言结构,并从中查找trailer标签;
获取子模块,从所述解析子模块得到的trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
8.根据权利要求7所述的PDF文件解析系统,其特征在于,所述重组模块还包括:
设置子模块,将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
9.根据权利要求6所述的PDF文件解析系统,其特征在于,所述输出模块包括:
第一输出子模块,将分块后的结果以Text格式输出;
第二输出子模块,将分块后的结果以JSON格式输出。
10.根据权利要求8所述的PDF文件解析系统,其特征在于,所述对象包括字符串、行、页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810690140.4A CN109065109A (zh) | 2018-06-28 | 2018-06-28 | 一种pdf文件解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810690140.4A CN109065109A (zh) | 2018-06-28 | 2018-06-28 | 一种pdf文件解析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109065109A true CN109065109A (zh) | 2018-12-21 |
Family
ID=64817865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810690140.4A Pending CN109065109A (zh) | 2018-06-28 | 2018-06-28 | 一种pdf文件解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065109A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502473A (zh) * | 2019-08-27 | 2019-11-26 | 许灵辉 | 一种征信文件自动化处理方法 |
CN114005506A (zh) * | 2021-10-22 | 2022-02-01 | 桑果健康科技发展(上海)有限公司 | 一种体检报告解析系统 |
WO2023017440A1 (en) * | 2021-08-10 | 2023-02-16 | xWave Technologies Limited | Method and system for selecting a clinical pathway |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105373562A (zh) * | 2014-08-27 | 2016-03-02 | 北大方正集团有限公司 | 一种pdf文档注释的获取方法及装置 |
CN105740267A (zh) * | 2014-12-10 | 2016-07-06 | 北大方正集团有限公司 | 一种处理pdf文件的方法及装置 |
-
2018
- 2018-06-28 CN CN201810690140.4A patent/CN109065109A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN105373562A (zh) * | 2014-08-27 | 2016-03-02 | 北大方正集团有限公司 | 一种pdf文档注释的获取方法及装置 |
CN105740267A (zh) * | 2014-12-10 | 2016-07-06 | 北大方正集团有限公司 | 一种处理pdf文件的方法及装置 |
Non-Patent Citations (2)
Title |
---|
孙殷等: "PostScript文件与PDF文件间数据转换", 《微型机与应用》 * |
李珍等: "PDF文件信息的抽取与分析", 《计算机应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502473A (zh) * | 2019-08-27 | 2019-11-26 | 许灵辉 | 一种征信文件自动化处理方法 |
WO2023017440A1 (en) * | 2021-08-10 | 2023-02-16 | xWave Technologies Limited | Method and system for selecting a clinical pathway |
CN114005506A (zh) * | 2021-10-22 | 2022-02-01 | 桑果健康科技发展(上海)有限公司 | 一种体检报告解析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065109A (zh) | 一种pdf文件解析方法及系统 | |
US7502995B2 (en) | Processing structured/hierarchical content | |
US6014680A (en) | Method and apparatus for generating structured document | |
CN106980637B (zh) | Sql审核方法和装置 | |
CA2191666C (en) | Hyper-text document preparing apparatus | |
CN107798069A (zh) | 用于数据加载的方法、装置及计算机可读介质 | |
CN105138752B (zh) | 智能变电站scd文件历史回溯差异化比较及展示方法 | |
CN106570171A (zh) | 一种基于语义的科技情报处理方法及系统 | |
US20070033520A1 (en) | System and method for web page localization | |
CN100584002C (zh) | 根据用户规格过滤比特流的方法 | |
CN110333863A (zh) | 一种生成、显示小程序页面的方法及装置 | |
CN109492199A (zh) | 一种基于ocr预判断的pdf文件转换方法 | |
CN108509658A (zh) | 一种xml文件的解析方法和装置 | |
CN108762743A (zh) | 一种数据表操作代码生成方法及装置 | |
CN105630753B (zh) | 一种核电站数字化规程的升级转换方法及系统 | |
US20020059348A1 (en) | Automatic documentation generation tool and associated method | |
CN110209387A (zh) | 一种顶层hdl文件生成方法和装置、计算机可读存储介质 | |
US9286272B2 (en) | Method for transformation of an extensible markup language vocabulary to a generic document structure format | |
US7493557B2 (en) | Source file generation apparatus | |
CN110554860A (zh) | 一种软件项目自然语言编程接口nli的构造方法及代码生成方法 | |
CN107133200A (zh) | 一种Android系统字符串提取及合并方法 | |
CN102708206B (zh) | 一种数据格式的描述方法 | |
CN112989451B (zh) | 基于二次系统数字化软件的点表自动生成方法 | |
KR102075874B1 (ko) | 전자책 변환 방법 및 이러한 방법을 수행하는 장치 | |
CN108829968A (zh) | 基于Python扩展函数的电路图审查方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181221 |
|
RJ01 | Rejection of invention patent application after publication |