CN109065109A - 一种pdf文件解析方法及系统 - Google Patents

一种pdf文件解析方法及系统 Download PDF

Info

Publication number
CN109065109A
CN109065109A CN201810690140.4A CN201810690140A CN109065109A CN 109065109 A CN109065109 A CN 109065109A CN 201810690140 A CN201810690140 A CN 201810690140A CN 109065109 A CN109065109 A CN 109065109A
Authority
CN
China
Prior art keywords
pdf document
piecemeal
byte
output
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810690140.4A
Other languages
English (en)
Inventor
黄建峰
罗景田
方海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Potential Cheng Technology Co Ltd
Original Assignee
Hangzhou Potential Cheng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Potential Cheng Technology Co Ltd filed Critical Hangzhou Potential Cheng Technology Co Ltd
Priority to CN201810690140.4A priority Critical patent/CN109065109A/zh
Publication of CN109065109A publication Critical patent/CN109065109A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种PDF文件解析方法及系统,该PDF文件解析方法包括:解析所述PDF文件,以得到解析后的字节;将所述字节重新组成对象;以及将所述对象进行分块,并将分块后的结果以预设的格式输出。本发明通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本PDF文件解析系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。

Description

一种PDF文件解析方法及系统
技术领域
本发明涉及PDF文档编辑技术领域,具体涉及一种PDF文件解析方法及系统。
背景技术
随着现有的用户健康体检平台的日趋完善,检后服务与健康大数据也成为不可缺少的一种趋势。用户体检完成后,可以在用户健康体检平台上通过在线查阅报告及报告解读等服务,方便地在线查阅和解读其体检报告。现有的体检报告主要以PDF格式存在,而PDF格式为特殊结构,现有的第三方库和技术上暂没有一套统一和完善的解析方法。因此,需要通过研发一套PDF体检数据的解析系统,便于为用户提供更加精准的检后服务及后期健康大数据的分析。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种PDF文件解析方法及系统,能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种PDF文件解析方法,该PDF文件解析方法包括以下步骤:
解析所述PDF文件,以得到解析后的字节;
将所述字节重新组成对象;以及
将所述对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,解析所述PDF文件,以得到解析后的字节包括以下步骤:解析所述PDF文件的自身语言结构,并从中查找trailer标签;从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
根据本发明的一个实施例,将所述字节重新组成对象包括以下步骤:将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
根据本发明的一个实施例,将分块后的结果以预设的格式输出包括以下步骤:
将分块后的结果以Text格式输出;或
将分块后的结果以JSON格式输出。
根据本发明的一个实施例,所述对象包括字符串、行、页。
根据本发明的另一方面,提供了一种PDF文件解析系统,该PDF文件解析系统包括:
解析模块,解析所述PDF文件,以得到解析后的字节;
重组模块,将所述解析模块解析得到的字节重新组成对象;
输出模块,将所述重组模块重组得到的对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,所述解析模块还包括:
解析子模块,解析所述PDF文件的自身语言结构,并从中查找trailer标签;
获取子模块,从所述解析子模块得到的trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
根据本发明的一个实施例,所述重组模块还包括:
设置子模块,将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
根据本发明的一个实施例,所述输出模块包括:
第一输出子模块,将分块后的结果以Text格式输出;
第二输出子模块,将分块后的结果以JSON格式输出。
根据本发明的一个实施例,所述对象包括字符串、行、页。
本发明的有益技术效果在于:
本发明提出了一种PDF文件解析方法及系统,通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种PDF文件解析方法流程图;
图2为本发明中一种PDF文件解析系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图和具体实施方式对本发明做出详细的说明。
如图1所示,本发明实施例提供的一种PDF文件解析方法,包括以下步骤:
S1、解析PDF文件,以得到解析后的字节。
S2、将字节重新组成对象。
S3、将对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,步骤S1中,解析PDF文件,以得到解析后的字节,具体包括以下步骤:解析PDF文件的自身语言结构,并从中查找trailer标签;从trailer标签中查找stream流对象,并从stream流对象中获取char对象。
根据本发明的一个实施例,步骤S2中,将字节重新组成对象,具体包括以下步骤:将char对象通过相应算法重新组成对象,并设置重新组成的对象的相应的坐标数据和参数数据,其中,重新组成的对象包括字符串、行、页。在处理过程中,为了正确判断对象是否为同一行、同一字符串,首先将char对象按照y坐标降序排序,再按照x坐标升序排序,从而在排序过程中,消除了y轴坐标的误差。
根据本发明的一个实施例,步骤S3中,将分块后的结果以预设的格式输出包括以下步骤:
将分块后的结果以Text格式输出;或
将分块后的结果以JSON格式输出。
具体地,将PDF文件转换为Text格式或JSON格式,将URL链接的PDF文件转化为Text格式或JSON格式。
如图2所示,本发明实施例还提供了一种PDF文件解析系统,包括:
解析模块10,解析PDF文件,以得到解析后的字节;
重组模块20,将解析模块10解析得到的字节重新组成对象;
输出模块30,将重组模块20重组得到的对象进行分块,并将分块后的结果以预设的格式输出。
根据本发明的一个实施例,解析模块10还包括:
解析子模块101,解析PDF文件的自身语言结构,并从中查找trailer标签;
获取子模块102,从解析子模块101得到的trailer标签中查找stream流对象,并从stream流对象中获取char对象。
根据本发明的一个实施例,重组模块20还包括:
设置子模块201,将char对象通过相应算法重新组成对象,并设置重新组成的对象的相应的坐标数据和参数数据,其中,重新组成的对象包括字符串、行、页。
根据本发明的一个实施例,输出模块30包括:
第一输出子模块301,将分块后的结果以Text格式输出;
第二输出子模块302,将分块后的结果以JSON格式输出。
为了便于理解本发明的技术方案,下面对本发明的技术方案进行详细的介绍。
上传PDF文件(PDF格式的用户体检报告)至PDF文件解析系统并保存原始数据,解析PDF文件并保存解析数据,对解析数据和原始数据进行同步。从解析数据中查找是否有人工编辑标签,若存在人工编辑标签,则不同步人工编辑部分,保存解析数据;若不存在人工编辑标签,则同步所有解析数据,对解析数据进行编辑并保存。
综上所述,借助于本发明的上述技术方案,通过本发明的一种PDF文件解析方法及系统,其可通过解析用户PDF格式的体检报告,得到解析后的字节,并将字节重组成对象,将对象进行分块,最后将分块后的结果以预设的格式输出,使用户能够通过在线查阅报告及报告解读等服务的方式,方便地在线查阅和解读其PDF格式的体检报告。本系统能够更加精准地解析用户的体检报告,从而便于为用户提供更加精准的检后服务及后期健康大数据的分析,提升用户体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种PDF文件解析方法,其特征在于,包括以下步骤:
解析所述PDF文件,以得到解析后的字节;
将所述字节重新组成对象;以及
将所述对象进行分块,并将分块后的结果以预设的格式输出。
2.根据权利要求1所述的PDF文件解析方法,其特征在于,解析所述PDF文件,以得到解析后的字节包括以下步骤:
解析所述PDF文件的自身语言结构,并从中查找trailer标签;
从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
3.根据权利要求2所述的PDF文件解析方法,其特征在于,将所述字节重新组成对象包括以下步骤:
将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
4.根据权利要求1所述的PDF文件解析方法,其特征在于,将分块后的结果以预设的格式输出包括以下步骤:
将分块后的结果以Text格式输出;或
将分块后的结果以JSON格式输出。
5.根据权利要求3所述的PDF文件解析方法,其特征在于,所述对象包括字符串、行、页。
6.一种PDF文件解析系统,其特征在于,包括:
解析模块,解析所述PDF文件,以得到解析后的字节;
重组模块,将所述解析模块解析得到的字节重新组成对象;
输出模块,将所述重组模块重组得到的对象进行分块,并将分块后的结果以预设的格式输出。
7.根据权利要求6所述的PDF文件解析系统,其特征在于,所述解析模块还包括:
解析子模块,解析所述PDF文件的自身语言结构,并从中查找trailer标签;
获取子模块,从所述解析子模块得到的trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
8.根据权利要求7所述的PDF文件解析系统,其特征在于,所述重组模块还包括:
设置子模块,将所述char对象通过相应算法重新组成对象,并设置重新组成的所述对象的相应的坐标数据和参数数据。
9.根据权利要求6所述的PDF文件解析系统,其特征在于,所述输出模块包括:
第一输出子模块,将分块后的结果以Text格式输出;
第二输出子模块,将分块后的结果以JSON格式输出。
10.根据权利要求8所述的PDF文件解析系统,其特征在于,所述对象包括字符串、行、页。
CN201810690140.4A 2018-06-28 2018-06-28 一种pdf文件解析方法及系统 Pending CN109065109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810690140.4A CN109065109A (zh) 2018-06-28 2018-06-28 一种pdf文件解析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810690140.4A CN109065109A (zh) 2018-06-28 2018-06-28 一种pdf文件解析方法及系统

Publications (1)

Publication Number Publication Date
CN109065109A true CN109065109A (zh) 2018-12-21

Family

ID=64817865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810690140.4A Pending CN109065109A (zh) 2018-06-28 2018-06-28 一种pdf文件解析方法及系统

Country Status (1)

Country Link
CN (1) CN109065109A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502473A (zh) * 2019-08-27 2019-11-26 许灵辉 一种征信文件自动化处理方法
CN114005506A (zh) * 2021-10-22 2022-02-01 桑果健康科技发展(上海)有限公司 一种体检报告解析系统
WO2023017440A1 (en) * 2021-08-10 2023-02-16 xWave Technologies Limited Method and system for selecting a clinical pathway

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN105373562A (zh) * 2014-08-27 2016-03-02 北大方正集团有限公司 一种pdf文档注释的获取方法及装置
CN105740267A (zh) * 2014-12-10 2016-07-06 北大方正集团有限公司 一种处理pdf文件的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN105373562A (zh) * 2014-08-27 2016-03-02 北大方正集团有限公司 一种pdf文档注释的获取方法及装置
CN105740267A (zh) * 2014-12-10 2016-07-06 北大方正集团有限公司 一种处理pdf文件的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙殷等: "PostScript文件与PDF文件间数据转换", 《微型机与应用》 *
李珍等: "PDF文件信息的抽取与分析", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502473A (zh) * 2019-08-27 2019-11-26 许灵辉 一种征信文件自动化处理方法
WO2023017440A1 (en) * 2021-08-10 2023-02-16 xWave Technologies Limited Method and system for selecting a clinical pathway
CN114005506A (zh) * 2021-10-22 2022-02-01 桑果健康科技发展(上海)有限公司 一种体检报告解析系统

Similar Documents

Publication Publication Date Title
CN109065109A (zh) 一种pdf文件解析方法及系统
US7502995B2 (en) Processing structured/hierarchical content
US6014680A (en) Method and apparatus for generating structured document
CN106980637B (zh) Sql审核方法和装置
CA2191666C (en) Hyper-text document preparing apparatus
CN107798069A (zh) 用于数据加载的方法、装置及计算机可读介质
CN105138752B (zh) 智能变电站scd文件历史回溯差异化比较及展示方法
CN106570171A (zh) 一种基于语义的科技情报处理方法及系统
US20070033520A1 (en) System and method for web page localization
CN100584002C (zh) 根据用户规格过滤比特流的方法
CN110333863A (zh) 一种生成、显示小程序页面的方法及装置
CN109492199A (zh) 一种基于ocr预判断的pdf文件转换方法
CN108509658A (zh) 一种xml文件的解析方法和装置
CN108762743A (zh) 一种数据表操作代码生成方法及装置
CN105630753B (zh) 一种核电站数字化规程的升级转换方法及系统
US20020059348A1 (en) Automatic documentation generation tool and associated method
CN110209387A (zh) 一种顶层hdl文件生成方法和装置、计算机可读存储介质
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
US7493557B2 (en) Source file generation apparatus
CN110554860A (zh) 一种软件项目自然语言编程接口nli的构造方法及代码生成方法
CN107133200A (zh) 一种Android系统字符串提取及合并方法
CN102708206B (zh) 一种数据格式的描述方法
CN112989451B (zh) 基于二次系统数字化软件的点表自动生成方法
KR102075874B1 (ko) 전자책 변환 방법 및 이러한 방법을 수행하는 장치
CN108829968A (zh) 基于Python扩展函数的电路图审查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221

RJ01 Rejection of invention patent application after publication