CN109726388A - Pdf文件解析方法、装置、设备及计算机可读存储介质 - Google Patents

Pdf文件解析方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109726388A
CN109726388A CN201810429650.6A CN201810429650A CN109726388A CN 109726388 A CN109726388 A CN 109726388A CN 201810429650 A CN201810429650 A CN 201810429650A CN 109726388 A CN109726388 A CN 109726388A
Authority
CN
China
Prior art keywords
resolved
pdf document
parsing
template
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810429650.6A
Other languages
English (en)
Inventor
夏良超
王盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201810429650.6A priority Critical patent/CN109726388A/zh
Publication of CN109726388A publication Critical patent/CN109726388A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种PDF文件解析方法、装置、设备及计算机可读存储介质,所述方法包括:当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。本方案通过与待解析PDF文件匹配的目标解析模板中的解析规则对待解析PDF文件进行解析,可确保待解析PDF文件中数据解析的完整性,且针对性强,提高了解析效率。

Description

PDF文件解析方法、装置、设备及计算机可读存储介质
技术领域
本发明主要涉及文件解析技术领域,具体地说,涉及一种PDF文件解析方法、装置、设备及计算机可读存储介质。
背景技术
目前随着大数据技术的发展,数据的统计分析已经深入到社会的各个层面,如公司的月报表、年报表、个人的借贷信息、税务信息等。此类数据部分来源于PDF文件,而此部分PDF文件中的数据,可通过对PDF文件进行解析获得,目前解析通过统一的方式对PDF文件逐一进行,对于不同类型的PDF文件,解析方式没有针对性,解析效率低,容易出现数据解析不完整的问题。
发明内容
本发明的主要目的是提供一种PDF文件解析方法、装置、设备及计算机可读存储介质,旨在解决现有技术中对不同类型PDF文件的解析没有针对性,而导致解析效率低,数据不完整的问题。
为实现上述目的,本发明提供一种PDF文件解析方法,所述PDF文件解析方法包括以下步骤:
当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
优选地,所述生成解析数据的步骤之后包括:
将生成的解析数据传输到临时数据库中,并对所述临时数据库中的解析数据进行碎片数据过滤,将经过滤的解析数据设为目标解析数据;
将所述目标解析数据发送到目标数据库中存储,并每间隔预设时间从所述目标数据库中获取所述目标解析数据生成数据示意图。
优选地,所述调用与所述内容类型对应的各解析模板的步骤之后包括:
根据预设标识符确定各解析模板中的标准模板,并读取所述标准模板的各预设关键字;
读取所述待解析PDF文件的各待解析项,并判断各所述待解析项是否与各所述预设关键字一致,若各所述待解析项与各所述预设关键字一致,则将所述标准模板确定为目标解析模板;
若各所述待解析项与各所述预设关键字不一致,则执行将所述待解析PDF文件分别与各解析模板匹配的步骤,其中将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板的步骤包括:
将所述待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的所述待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板。
优选地,所述将所述待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的所述待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板的步骤包括:
读取各所述衍生解析模板的各预设关键字,并将所述待解析PDF文件的各所述待解析项逐一与各所述衍生解析模板的各预设关键字对比,确定各所述待解析项与各所述衍生解析模板中各预设关键字一致的数量,以生成与各衍生解析模板匹配的匹配率;
将各所述匹配率进行比较,确定数值最大的匹配率,并将与所述数值最大的匹配率对应的衍生解析模板确定为目标解析模板。
优选地,所述根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据的步骤包括:
确定各所述待解析项中与各所述预设关键字匹配的目标待解析项,并调用与各所述预设关键字对应的解析规则对所述目标待解析项进行解析;
对各所述待解析项中除所述目标待解析项之外的其他待解析项分配解析标识符,并根据所述解析标识符的分配状态输出对应的提示信息。
优选的,所述根据所述关键字样确定所述待解析PDF文件的内容类型的步骤包括:
调用预设关键字样与文件内容类型的映射表,并将所述关键字样与所述映射表中的预设关键字样逐一对比;
确定预设关键字样中与所述关键字样一致的目标预设关键字样,并将所述目标预设关键字样对应的文件内容类型确定为所述待解析PDF文件的内容类型。
优选地,所述当接收到待解析PDF文件时,识别PDF文件所携带的关键字样的步骤之前包括:
采集各类型PDF文件的特征参数,并根据所述特征参数生成与各类型PDF文件对应的解析模板。
此外,为实现上述目的,本发明还提出一种PDF文件解析装置,所述PDF文件解析装置包括:
识别模块,用于当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
匹配模块,用于调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
解析模块,用于根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
此外,为实现上述目的,本发明还提出一种PDF文件解析设备,所述PDF文件解析设备包括:存储器、处理器、通信总线以及存储在所述存储器上的PDF文件解析程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述PDF文件解析程序,以实现以下步骤:
当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
本实施例的PDF文件解析方法,当接收到有解析需求的待解析PDF文件时,识别其中所携带的关键字样,根据关键字样确定待解析PDF文件的内容类型;从而调用与所述内容类型对应的各解析模板,将待解析PDF文件分别与各解析模板匹配,根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;进而根据目标解析模板中的解析规则对待解析PDF文件进行解析,生成解析数据。本方案通过确定与待解析PDF文件对应的目标解析模板,并根据目标解析模板中的解析规则对待解析PDF文件进行解析,因目标解析模板与待解析PDF文件匹配,使用其对待解析PDF文件进行解析,可确保待解析PDF文件中数据解析的完整性,且针对性强,提高了解析效率。
附图说明
图1是本发明的PDF文件解析方法第一实施例的流程示意图;
图2是本发明的PDF文件解析方法第二实施例的流程示意图;
图3是本发明的PDF文件解析方法第三实施例的流程示意图;
图4是本发明的PDF文件解析装置第一实施例的功能模块示意图;
图5是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种PDF文件解析方法。
请参照图1,图1为本发明PDF文件解析方法第一实施例的流程示意图。在本实施例中,所述PDF文件解析方法包括:
步骤S10,当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
本发明的PDF文件解析方法即可应用于服务器也可应用于移动电脑、台式电脑等终端。PDF(Portable Document Format,便携式文档格式)文件为一种图文格式文件,通过对PDF文件解析,以提取PDF文件中所携带的信息。通过人工触发或预设定时触发将有解析需求的PDF文件传输到服务器或终端,人工触发时,通过人工选择需要解析的PDf文件传输到服务器或者终端。而预设定时触发时,则先设定预设时间,在未到达预设时间之前接收其他用户终端所发送的PDF文件,并对需要解析的PDF文件设定特定标识符;当到达此预设时间则触发一次传输操作,将具有特定标识符的PDF文件传输到服务器或终端。考虑到PDF文件所涉及的用途类型多样,如税务文件、借贷文件、征信报告等,此不同类型的PDF文件所具有的文件内容不一样,所需要解析提取的信息也不一样。但对于归属于某一类型的多个PDF文件,此多个PDF文件在特征参数上具有相似性,如PDF文件中作为特征参数的信用卡记录和贷款记录。从而可针对不同类型的PDF文件分别设置有对应的解析模板,以便于对不同类型的PDF文件进行解析,提取与PDF文件对应信息。当接收到有解析需求的待解析PDF文件时,识别其中所携带的关键字样,关键字样主要为PDF文件的标题内容字样,用于表征此PDF文件中内容的用途,以通过识别的关键字样确定待解析PDF文件的类型,如识别到标题内容“个人信用报告”的关键字样,据此确定具有此关键字样的待解析PDF文件类型为征信报告。
此外考虑到某些PDF文件具有特定的格式框架,如发票类型的PDF文件,对于此类PDF文件可通过识别其所具有的格式框架,即可确定其类型,进而调用与其对应的解析模板进行解析,而不需要识别其所携带的关键字。从而本实施例设置有先识别待解析PDF文件的格式框架,通过格式框架确定内容类型的机制;而在当待解析PDF文件的格式框架不是特定框架,通过读取格式框架不能确定内容类型时,则进一步识别待解析PDF文件中的关键字,通过关键字确定其内容类型,以简化待解析PDF文件内容类型的确定流程。其中,根据关键字样确定待解析PDF文件的内容类型的步骤包括:
步骤S11,调用预设关键字样与文件内容类型的映射表,并将所述关键字样与所述映射表中的预设关键字样逐一对比;
为了通过关键字样确定待解析PDF文件的类型,预先设置有预设关键字样与文件内容类型的映射表,此映射表中各预设关键字样与各文件内容类型具有对应关系,其中对应关系可以是单个预设关键字样与文件内容类型对应,也可以是多个预设关键字样与文件内容类型对应,包括多对预设关键字样与文件内容类型的对应关系。如预设关键字样“A”对应文件内容类型“a”,预设关键字样“B1、B2”对应文件内容类型“b”,预设关键字样“C”对应文件内容类型“c”。当识别出待解析PDF文件中所携带的关键字样时,调用此预设关键字样与文件内容类型映射表,将所识别的关键字样和映射表中的预设关键字样一一对比,确定映射表中是否存在与此识别的关键字样相同的预设关键字样,以通过与预设关键字样对应的文件内容类型,确定待解析PDF文件的内容类型。
步骤S12,确定预设关键字样中与所述关键字样一致的目标预设关键字样,并将所述目标预设关键字样对应的文件内容类型确定为所述待解析PDF文件的内容类型。
当将所识别的关键字样和映射表中的预设关键字样一一对比,确定各预设关键字样中存在与所识别的关键字样一致的目标预设关键字样时,进一步根据映射表中各预设关键字样与文件内容类型的对应关系,确定与目标预设关键字样所对应的文件内容类型,将此文件内容类型确定为待解析PDF文件的内容类型。因映射表中预设关键字样与文件类型的对应关系包括一对一也包括多对一,而所识别的关键字可能为单个也可能为多个,在将所识别的关键字样和映射表中预设关键字样对比时,可能存在一对一对比、一对多对比、多对一对比以及多对多对比的情况。当所识别的关键字为单个,且映射表中是单个预设关键字样与文件内容类型对应时,则将所识别的单个关键字和单个预设关键字样对比,当对比出两者一致则可说明两者一致,当对比出两者不一致则说明两者不一致。若所识别的关键字为单个,而映射表中是多个预设关键字样与文件内容类型对应时,则将所识别的单个关键字和多个预设关键字样对比,当对比出多个预设关键字样中存在与单个关键字一致的预设关键字样时则可说明两者一致,当对比出不存在与单个关键字一致的预设关键字样则说明两者不一致。若所识别的关键字为多个,而映射表中是单个预设关键字样与文件内容类型对应时,则将所识别的多个关键字和单个预设关键字样对比,当对比出多个关键字中存在与单个预设关键字样一致的关键字时则可说明两者一致,当对比出不存在与单个预设关键字样一致的关键字则说明两者不一致。若所识别的关键字为多个,而映射表中是多个预设关键字样与文件内容类型对应时,则将所识别的多个关键字和多个预设关键字样对比,当对比出多个预设关键字样中存在与多个关键字一致的预设关键字样时则可说明两者一致,当对比出不存在与多个关键字一致的预设关键字样则说明两者不一致。
可理解地,在一对多、多对一和多对多对比中,可能存在多个与所识别的关键字对应的预设关键字样,而使具有所识别关键字的待解析PDF文件的内容类型多样。本实施例为了确定待解析PDF文件的内容类型,设定有权重匹配机制,具体地在一对多对比时,多个预设关键字样按照排列顺序设置权重,将识别的单个关键字所匹配的排位在前列的预设关键字样对应的文件内容类型确定为待解析PDF文件内容类型。如预设关键字样(a1、a2、a3)对应的文件内容类型为a,预设关键字样(b1、a1、a2)对应的文件内容类型为b,而所识别的关键字a1均与此两者匹配,但与前者所匹配的预设关键字样的排位靠前,从而将a作为待解析PDF文件的内容类型。相应的对于多对一的情况,也可采用同样的权重匹配机制;而对于多对多的情况,在采用权重匹配的同时还可采用匹配数量确定,当匹配的数量越多,则越可能为此匹配数量对应的内容类型。通过此多种形式的对比匹配,可使待解析PDF文件内容类型的确定更为准确。在当所识别的关键字与预设关键字样不一致,各预设关键字样中不存在与所识别的关键字样一致的目标预设关键字样时,说明没有与此识别的关键字样对应的文件内容类型,相应的也没有与此文件内容类型所对应的解析模板,而不能通过与其对应的解析模板对此待解析PDF文件进行解析。对于此类型的待解析PDF文件,设置有通用解析模板,当映射表中没有与识别的关键字样所对应文件内容类型时,则调用通用解析模板,逐行读取识别待解析PDF文件中的信息,对待解析PDF文件解析。
步骤S20,调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
可理解地,对于某一内容类型的待解析PDF文件,虽然各个待解析PDF文件在特征参数上具有相似性,但任然存在各个待解析PDF文件之间的差异性。对于此具有差异性的同一内容类型待解析PDF文件,如果采用同一内容类型解析模板进行解析,解析所得到的结果也都相同,不能体现其差异性。为了更准确的对同一内容类型的待解析PDF文件进行解析,针对同一内容类型设置有多个解析模板。在确定待解析PDF文件的类型之后,调用与此类型待解析PDF文件对应的各个解析模板,此各个解析模板均可用于解析此类型的待解析PDF文件,但解析所得到的信息有差异,需要从此各个解析模板中确定最符合待解析PDF文件要求的目标解析模板。确定时将待解析PDF文件中需要解析的信息与各解析模板所具有的解析功能进行逐一匹配,确定匹配所生成匹配率最高的解析模板。此匹配率最高的解析模板中所具有的解析功能和待解析PDF文件中需要解析的信息最为对应,将其作为目标解析模板,对待解析PDF文件进行解析。
步骤S30,根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
进一步地,在确定目标解析模板后,则可使用目标解析模板中的解析规则对待解析PDF文件进行解析,解析规则为预先定义在目标解析模板中用于实现目标解析模板的解析功能。如解析规则为对信用卡记录以及贷款记录进行解析,则读取待解析PDF文件中的信用卡记录和贷款记录进行读取识别。因目标解析模板与待解析PDF文件的匹配率最高,其可实现待解析PDF文件中大部分需要解析信息的解析,且解析所生成的解析数据更为全面准确。
本实施例的PDF文件解析方法,当接收到有解析需求的待解析PDF文件时,识别其中所携带的关键字样,根据关键字样确定待解析PDF文件的内容类型;从而调用与所述内容类型对应的各解析模板,将待解析PDF文件分别与各解析模板匹配,根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;进而根据目标解析模板中的解析规则对待解析PDF文件进行解析,生成解析数据。本方案通过确定与待解析PDF文件对应的目标解析模板,并根据目标解析模板中的解析规则对待解析PDF文件进行解析,因目标解析模板与待解析PDF文件匹配,使用其对待解析PDF文件进行解析,可确保待解析PDF文件中数据解析的完整性,且针对性强,提高了解析效率。
进一步地,请参照图2,在本发明PDF文件解析方法第一实施例的基础上,提出本发明PDF文件解析方法第二实施例,在第二实施例中,所述生成解析数据的步骤之后包括:
步骤S40,将生成的解析数据传输到临时数据库中,并对所述临时数据库中的解析数据进行碎片数据过滤,将经过滤的解析数据设为目标解析数据;
可理解地,在对待解析PDF文件经解析生成解析数据之后,需要将所生成的解析数据存储使用,但是在解析过程中可能出现解析错误的碎片数据,如果将此类碎片数据作为解析的正常数据进行使用,可能导致出错。需要对此类碎片数据进行过滤清洗,将其从所得到解析数据从去除。具体地,对待解析PDF文件中需要解析的信息经解析所生成的解析数据添加标签,并在所生成的各个解析数据传输到临时数据库中,临时数据库为预先设置用于存储各个待解析PDF文件所生成解析数据的数据库。在临时数据库中判断各个解析数据是否携带有标识符,当携带有标识符时则说明此生成的解析数据由需要解析的信息生成,而当不携带有标识符时则说明此生成的解析数据来源不明,为碎片数据,需要对实时数据库中的此数据进行清除过滤。此外还对所生成的解析数据进行常识性判断,将不符合常识规律的解析数据清除,如年龄,当表征年龄的解析数据为200,则判定其不符合常识规律,对其进行过滤清除。将经过滤处理的解析数据设为目标解析数据,以确保过滤数据的准确性。
步骤S50,将所述目标解析数据发送到目标数据库中存储,并每间隔预设时间从所述目标数据库中获取所述目标解析数据生成数据示意图。
进一步地,在将解析数据过滤得到目标接收数据之后,将此目标数据发送到目标数据库中存储,目标数据库为预先设置用于存储各个待解析PDF文件的目标解析数据的数据库。所生成的目标解析数据主要用于生成数据示意图,以图形的方式统计对比各类型待解析PDF文件中的信息。具体地,每间隔预设时间从目标数据库中获取目标解析数据,并根据目标解析数据生成数据示意图。此间隔预设时间为根据所生成数据示意图的需求而预先设定,如对于月报表,可设定间隔预设时间为间隔一月,而对于周报表,设定间隔预设时间为一周。此外所生成数据示意图的形式也可预先设定,如设定示意图为柱状图、饼状图、气泡图等,当到达设定的间隔预设时间,从目标数据库中获取目标解析数据,将此获取的目标解析数据填充到所设定的示意图中,即可生成数据示意图,实现对各待解析PDF文件中的信息以图形的方式显示。
进一步地,在本发明PDF文件解析方法另一实施例中,所述调用与所述内容类型对应的各解析模板的步骤之后包括:
步骤S20-1,根据预设标识符确定各解析模板中的标准模板,并读取所述标准模板的各预设关键字;
进一步地,对于同一类型待解析PDF文件中特征参数相似的部分,设定标准模板,其他的解析模板在标准模板的基础上进行扩展,以简化各解析模板的生成,且方便体现各待解析PDF文件之间的差异性。为了区别标准模板与各解析模板,对标准模板设置预设标识符;此外为了表征各解析模板所具有的解析功能对解析模板的各功能设置预设关键字。在调用与内容类型对应的各解析模板后,根据预设标识符确定各解析模板中的标准模板,并读取标准模板的各预设关键字,通过预设关键字确定标准模板所具有的解析功能。
步骤S20-2,读取所述待解析PDF文件的各待解析项,并判断各所述待解析项是否与各所述预设关键字一致,若各所述待解析项与各所述预设关键字一致,则将所述标准模板确定为目标解析模板;
更进一步地,读取待解析PDF文件中的各待解析项,此各待解析项表示待解析PDF文件中需要解析的信息,将此待解析PDF文件中的各待解析项和标准模板中各预设关键字对比,判断各待解析项和各预设关键字是否完全一致,当各待解析项和各预设关键字完全一致时,则说明标准模板与待解析PDF文件完全匹配,使用标准模板解析待解析PDF文件,可对待解析PDF文件中需要解析的信息进行完全解析。
步骤S20-3,若各所述待解析项与各所述预设关键字不一致,则执行将所述待解析PDF文件分别与各解析模板匹配的步骤,其中将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板的步骤包括:
步骤S21,将所述待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的所述待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板。
而当判断出各待解析项和各预设关键字不完全一致时,则说明标准模板不能对待解析PDF文件中需要解析的信息进行完全解析。从而需要从各解析模板中确定对待解析PDF文件中需要解析的信息可解析的最为全面的目标解析模板,此目标解析模板通过将待解析PDF文件与各解析模板匹配确定。具体地,将各解析模板中除标准模板之外的衍生解析模板逐一与待解析匹配文件匹配,因各衍生解析模板所具有的解析功能不一样,解析功能与需要解析的信息匹配率不一样,将可用于对需要解析的信息进行解析的解析功能设定为匹配。当可用于对需要解析的信息进行解析的解析功能越多,则匹配率越高,使用具有此解析功能的解析模板对待解析PDF文件进行解析,可最大程度上实现待解析PDF文件中需要解析信息的解析。即根据待解析PDF文件与各衍生解析模板匹配所生成的匹配率确定目标解析模板,使用目标解析模板对待解析PDF文件解析。具体地,将待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板的步骤包括:
步骤S211,读取各所述衍生解析模板的各预设关键字,并将所述待解析PDF文件的各所述待解析项逐一与各所述衍生解析模板的各预设关键字对比,确定各所述待解析项与各所述衍生解析模板中各预设关键字一致的数量,以生成与各衍生解析模板匹配的匹配率;
在将待解析PDF文件与各衍生解析模板匹配时,读取表征各衍生解析模板所具有功能的多个预设关键字,并将待解析PDF文件的各待解析项一一与此各预设关键字对比。各待解析项为待解析PDF文件中需要解析的信息,此需要解析的信息可由有解析需求的用户确定,用户对需要解析的信息进行标识,读取待解析PDF文件中此标识部位的内容关键字作为待解析项,将此待解析项和各预设关键字对比,确定两者一致的数量。待解析项和预设关键字一致,则说明预设关键字可用于对待解析项进行解析,确定各衍生解析模板中可用于对待解析项进行解析的预设关键字数量。因预设关键词可用于对待解析项进行解析则为匹配,从而通过各解析项与各预设关键字一致的数量,确定两者匹配数量,进而确定待解析PDF文件与各其他模板匹配的匹配率。如待解析PDF文件中的包括5项待解析项,衍生解析模板v1中有3项预设关键字可用于对5项待解析项中的3项进行解析,即待解析项与预设关键词一致的数量为3,两者的匹配数量为3,所确定的两者匹配率为60%(3/5*100%)。
步骤S232,将各所述匹配率进行比较,确定数值最大的匹配率,并将与所述数值最大的匹配率对应的衍生解析模板确定为目标解析模板。
进一步地,在生成待解析PDF文件与各衍生解析模板匹配的匹配率后,将各匹配率进行比较,确定匹配率中数值最大的匹配率。因匹配率由衍生解析模板中各预设关键字与各待解析项一致的数量生成,而预设关键词用于对各解析项进行解析,从而生成的匹配率可表征衍生解析模板对待解析PDF文件的解析程度,其中匹配率越高,则衍生解析模板可最大程度的对待解析PDF文件进行解析。将此数值最大的匹配率所对应的衍生解析模板确定为目标解析模板,通过目标解析模板对待解析PDF文件进行解析。
进一步地,在本发明PDF文件解析方法另一实施例中,所述根据目标解析模板中的解析规则对待解析PDF文件进行解析,生成解析数据的步骤包括:
步骤S31,确定各所述待解析项中与各所述预设关键字匹配的目标待解析项,并调用与各所述预设关键字对应的解析规则对所述目标待解析项进行解析;
更进一步地,在通过目标解析模板对待解析PDF文件进行解析时,其实质是通过目标解析模板中的各预设关键字对待解析PDF文件中的待解析项进行解析。因目标解析模板与待解析PDF文件可能完全匹配也可能没有完全匹配,当没有完全匹配时,待解析PDF文件中存在某些待解析项不能被目标解析模板中的预设关键字解析,从而确定各待解析项中可被预设关键字解析的待解析项,即确定各待解析项中与各预设关键字匹配的目标待解析项,并调用预设关键字对应的解析规则对目标待解析项进行解析。与预设关键字对应的解析规则为针对不同的预设关键字所设定的解析规则,如预设关键字“E1”设定解析规则“e1”,预设关键字“E2”设定解析规则“e2”;目标解析项匹配的预设关键词E1,则调用解析规则e1对目标解析项进行解析。
步骤S32,对各所述待解析项中除所述目标待解析项之外的其他待解析项分配解析标识符,并根据所述解析标识符的分配状态输出对应的提示信息。
当目标解析模板与待解析PDF文件没有完全匹配,各待解析项中存在有预设关键字不能解析其他待解析项,即待解析PDF文件中不能被目标解析模板中的预设关键字解析的其他待解析项,向此其他待解析项分配解析标识符,以表征其不能被解析。而当目标解析模板与待解析PDF文件完全匹配,待解析PDF文件中待解析项均能被目标解析模板的预设关键字解析,而不存在其他解析项,不需要向其他待解析项分配解析标识符。对于分配有解析标识符的其他待解析项,输出提示信息,以便用户根据提示信息确定不能被解析的其他待解析项,对此其他待解析项采用诸如人工解析此类的其他解析方式。
进一步地,请参照图3,在本发明PDF文件解析方法第一或第二实施例的基础上,提出本发明PDF文件解析方法第三实施例,在第三实施例中,所述当接收到待解析PDF文件时,识别PDF文件所携带的关键字样的步骤之前包括:
步骤S60,采集各类型PDF文件的特征参数,并根据所述特征参数生成与各类型PDF文件对应的解析模板。
可理解地,在通过解析模板对PDF文件进行解析之前,需要生成解析模板。而考虑到解析模板用于对各种类型的PDF文件进行解析,从而所生成的解析模板应该与PDF文件的解析需求一致。采集各类型PDF文件的特征参数,此特征参数为表征待解析PDF文件的解析需求,如征信报告类型的PDF文件中的信贷记录,对信贷记录有解析需求,则将其作为特征参数。根据此采集的特征参数生成与各类型PDF文件对应的解析模板,且在生成某一类型PDF文件的解析模板时,采集此类型PDF文件中所具有的公共特征参数,将此公共特征参数生成此类PDF文件的标准模板,并在表征模板的基础上添加其他特征参数生成衍生解析模板。如对于同一类型的PDF文件k1、k2和k3,其中k1所包括的特征参数为p1、p2、q1和q2,k2所包括的特征参数为为p1、p2、q1和q3,k3所包括的特征参数为为p1、p2、q1和q4,此三者特征参数中的公共特征参数为p1、p2、q1,从而将此三者生成此类型PDF文件的标准模板,并在此标准模板的基础上添加特征参数q2、q3或q4生成衍生解析模板。
此外,请参照图4,本发明提供一种PDF文件解析装置,在本发明PDF文件解析装置第一实施例中,所述PDF文件解析装置包括:
识别模块10,用于当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
匹配模块20,用于调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
解析模块30,用于根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
本实施例的PDF文件解析装置,当接收到有解析需求的待解析PDF文件时,识别模块10识别其中所携带的关键字样,根据关键字样确定待解析PDF文件的内容类型;从而调用与所述内容类型对应的各解析模板,匹配模块20将待解析PDF文件分别与各解析模板匹配,根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;进而解析模块30根据目标解析模板中的解析规则对待解析PDF文件进行解析,生成解析数据。本方案通过确定与待解析PDF文件对应的目标解析模板,并根据目标解析模板中的解析规则对待解析PDF文件进行解析,因目标解析模板与待解析PDF文件匹配,使用其对待解析PDF文件进行解析,可确保待解析PDF文件中数据解析的完整性,且针对性强,提高了解析效率。
其中,上述PDF文件解析装置的各虚拟功能模块存储于图5所示PDF文件解析设备的存储器1005中,处理器1001执行PDF文件解析程序时,实现图4所示实施例中各个模块的功能。
参照图5,图5是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明实施例PDF文件解析设备可以是PC(personal computer,个人计算机),也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。
如图5所示,该PDF文件解析设备可以包括:处理器1001,例如CPU(CentralProcessing Unit,中央处理器),存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM(random accessmemory,随机存取存储器),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该PDF文件解析设备还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi(Wireless Fidelity,无线宽带)模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图5中示出的PDF文件解析设备结构并不构成对PDF文件解析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及PDF文件解析程序。操作系统是管理和控制PDF文件解析设备硬件和软件资源的程序,支持PDF文件解析程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与PDF文件解析设备中其它硬件和软件之间通信。
在图5所示的PDF文件解析设备中,处理器1001用于执行存储器1005中存储的PDF文件解析程序,实现上述PDF文件解析方法各实施例中的步骤。
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述PDF文件解析方法各实施例中的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种PDF文件解析方法,其特征在于,所述PDF文件解析方法包括以下步骤:
当接收到待解析便携式文档格式PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
2.如权利要求1所述的PDF文件解析方法,其特征在于,所述生成解析数据的步骤之后包括:
将生成的解析数据传输到临时数据库中,并对所述临时数据库中的解析数据进行碎片数据过滤,将经过滤的解析数据设为目标解析数据;
将所述目标解析数据发送到目标数据库中存储,并每间隔预设时间从所述目标数据库中获取所述目标解析数据生成数据示意图。
3.如权利要求1所述的PDF文件解析方法,其特征在于,所述调用与所述内容类型对应的各解析模板的步骤之后包括:
根据预设标识符确定各解析模板中的标准模板,并读取所述标准模板的各预设关键字;
读取所述待解析PDF文件的各待解析项,并判断各所述待解析项是否与各所述预设关键字一致,若各所述待解析项与各所述预设关键字一致,则将所述标准模板确定为目标解析模板;
若各所述待解析项与各所述预设关键字不一致,则执行将所述待解析PDF文件分别与各解析模板匹配的步骤,其中将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板的步骤包括:
将所述待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的所述待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板。
4.如权利要求3所述的PDF文件解析方法,其特征在于,所述将所述待解析PDF文件分别与各解析模板中除标准模板之外的衍生解析模板匹配,并根据得到的所述待解析PDF文件与各衍生解析模板的匹配率确定目标解析模板的步骤包括:
读取各所述衍生解析模板的各预设关键字,并将所述待解析PDF文件的各所述待解析项逐一与各所述衍生解析模板的各预设关键字对比,确定各所述待解析项与各所述衍生解析模板中各预设关键字一致的数量,以生成与各衍生解析模板匹配的匹配率;
将各所述匹配率进行比较,确定数值最大的匹配率,并将与所述数值最大的匹配率对应的衍生解析模板确定为目标解析模板。
5.如权利要求4所述的PDF文件解析方法,其特征在于,所述根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据的步骤包括:
确定各所述待解析项中与各所述预设关键字匹配的目标待解析项,并调用与各所述预设关键字对应的解析规则对所述目标待解析项进行解析;
对各所述待解析项中除所述目标待解析项之外的其他待解析项分配解析标识符,并根据所述解析标识符的分配状态输出对应的提示信息。
6.如权利要求1-5任一项所述的PDF文件解析方法,其特征在于,所述根据所述关键字样确定所述待解析PDF文件的内容类型的步骤包括:
调用预设关键字样与文件内容类型的映射表,并将所述关键字样与所述映射表中的预设关键字样逐一对比;
确定预设关键字样中与所述关键字样一致的目标预设关键字样,并将所述目标预设关键字样对应的文件内容类型确定为所述待解析PDF文件的内容类型。
7.如权利要求1-5任一项所述的PDF文件解析方法,其特征在于,所述当接收到待解析PDF文件时,识别PDF文件所携带的关键字样的步骤之前包括:
采集各类型PDF文件的特征参数,并根据所述特征参数生成与各类型PDF文件对应的解析模板。
8.一种PDF文件解析装置,其特征在于,所述PDF文件解析装置包括:
识别模块,用于当接收到待解析PDF文件时,识别所述待解析PDF文件所携带的关键字样,根据所述关键字样确定所述待解析PDF文件的内容类型;
匹配模块,用于调用与所述内容类型对应的各解析模板,将所述待解析PDF文件分别与各解析模板匹配,并根据得到的所述待解析PDF文件与各解析模板的匹配率确定目标解析模板;
解析模块,用于根据所述目标解析模板中的解析规则对所述待解析PDF文件进行解析,生成解析数据。
9.一种PDF文件解析设备,其特征在于,所述PDF文件解析设备包括:存储器、处理器、通信总线以及存储在所述存储器上的PDF文件解析程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述PDF文件解析程序,以实现如权利要求1-7中任一项所述的PDF文件解析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机课读存储介质上存储有PDF文件解析程序,所述PDF文件解析程序被处理器执行时实现如权利要求1-7中任一项所述的PDF文件解析方法的步骤。
CN201810429650.6A 2018-05-07 2018-05-07 Pdf文件解析方法、装置、设备及计算机可读存储介质 Pending CN109726388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810429650.6A CN109726388A (zh) 2018-05-07 2018-05-07 Pdf文件解析方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810429650.6A CN109726388A (zh) 2018-05-07 2018-05-07 Pdf文件解析方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109726388A true CN109726388A (zh) 2019-05-07

Family

ID=66293790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810429650.6A Pending CN109726388A (zh) 2018-05-07 2018-05-07 Pdf文件解析方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109726388A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348680A (zh) * 2019-06-04 2019-10-18 深圳前海新心金融管理有限公司 基于统一模板的征信报告智能解析方法以及装置
CN110609982A (zh) * 2019-08-08 2019-12-24 浙江中控技术股份有限公司 Pdf文件数据解析系统及方法
CN110765195A (zh) * 2019-10-23 2020-02-07 北京锐安科技有限公司 一种数据解析方法、装置、存储介质及电子设备
CN111258963A (zh) * 2019-11-04 2020-06-09 北京易优联科技有限公司 Pdf文件的解析方法及装置
CN111370132A (zh) * 2020-02-28 2020-07-03 平安医疗健康管理股份有限公司 电子文件的解析方法及装置、计算机设备、存储介质
CN111783735A (zh) * 2020-07-22 2020-10-16 欧冶云商股份有限公司 一种基于人工智能的钢材单据解析系统
CN112328551A (zh) * 2020-11-09 2021-02-05 医渡云(北京)技术有限公司 医疗数据解析方法、装置、介质及电子设备
CN113761873A (zh) * 2021-09-07 2021-12-07 平安国际智慧城市科技股份有限公司 Pdf解析方法、装置、电子设备及可存储介质
WO2022150110A1 (en) * 2021-01-05 2022-07-14 Morgan Stanley Services Group Inc. Document content extraction and regression testing
CN116033048A (zh) * 2023-03-31 2023-04-28 中汽数据(天津)有限公司 物联网的多协议解析方法、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201643A (zh) * 2016-07-14 2016-12-07 北京邮电大学 数据解析方法及装置
CN106709368A (zh) * 2016-12-15 2017-05-24 天津交控科技有限公司 一种数据解析方法及装置
CN107908632A (zh) * 2017-07-26 2018-04-13 上海壹账通金融科技有限公司 网站文件处理方法、装置、网站文件处理平台及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201643A (zh) * 2016-07-14 2016-12-07 北京邮电大学 数据解析方法及装置
CN106709368A (zh) * 2016-12-15 2017-05-24 天津交控科技有限公司 一种数据解析方法及装置
CN107908632A (zh) * 2017-07-26 2018-04-13 上海壹账通金融科技有限公司 网站文件处理方法、装置、网站文件处理平台及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348680A (zh) * 2019-06-04 2019-10-18 深圳前海新心金融管理有限公司 基于统一模板的征信报告智能解析方法以及装置
CN110609982A (zh) * 2019-08-08 2019-12-24 浙江中控技术股份有限公司 Pdf文件数据解析系统及方法
CN110765195A (zh) * 2019-10-23 2020-02-07 北京锐安科技有限公司 一种数据解析方法、装置、存储介质及电子设备
CN111258963A (zh) * 2019-11-04 2020-06-09 北京易优联科技有限公司 Pdf文件的解析方法及装置
CN111370132B (zh) * 2020-02-28 2022-04-15 平安医疗健康管理股份有限公司 电子文件的解析方法及装置、计算机设备、存储介质
CN111370132A (zh) * 2020-02-28 2020-07-03 平安医疗健康管理股份有限公司 电子文件的解析方法及装置、计算机设备、存储介质
CN111783735A (zh) * 2020-07-22 2020-10-16 欧冶云商股份有限公司 一种基于人工智能的钢材单据解析系统
CN111783735B (zh) * 2020-07-22 2021-01-22 欧冶云商股份有限公司 一种基于人工智能的钢材单据解析系统
CN112328551A (zh) * 2020-11-09 2021-02-05 医渡云(北京)技术有限公司 医疗数据解析方法、装置、介质及电子设备
WO2022150110A1 (en) * 2021-01-05 2022-07-14 Morgan Stanley Services Group Inc. Document content extraction and regression testing
CN113761873A (zh) * 2021-09-07 2021-12-07 平安国际智慧城市科技股份有限公司 Pdf解析方法、装置、电子设备及可存储介质
CN116033048A (zh) * 2023-03-31 2023-04-28 中汽数据(天津)有限公司 物联网的多协议解析方法、电子设备和存储介质
CN116033048B (zh) * 2023-03-31 2024-04-09 中汽数据(天津)有限公司 物联网的多协议解析方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109726388A (zh) Pdf文件解析方法、装置、设备及计算机可读存储介质
CN109726103B (zh) 测试报告的生成方法、装置、设备及存储介质
CN110019486B (zh) 数据采集方法、装置、设备及存储介质
CN110737689B (zh) 数据标准符合性检测方法、装置、系统及存储介质
CN110427188B (zh) 单测断言程序的配置方法、装置、设备及存储介质
CN110704526B (zh) 不良事件的信息的获取方法、装置、设备及存储介质
CN109711145A (zh) 数据校验方法及装置、存储介质、计算机设备
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN108647235A (zh) 一种基于数据仓库的数据分析方法、设备以及介质
CN112817866A (zh) 录制回放方法、装置、系统、计算机设备以及存储介质
CN107615270A (zh) 一种人机交互方法及其装置
CN112256684B (zh) 一种报表生成方法、终端设备及存储介质
CN106227483B (zh) 一种显示控制方法及移动终端
CN109902027B (zh) 一种便于实施的tpc-ds测试方法以及系统
CN104933096B (zh) 数据库的异常键识别方法、装置与数据系统
CN111046632B (zh) 一种数据提取转换方法、系统、存储介质及电子设备
CN110990381B (zh) 服务器的处理方法及装置、存储介质和电子装置
CN109740074B (zh) 参数配置信息的处理方法、装置及设备
CN117194255A (zh) 测试数据维护方法、装置、设备及存储介质
CN111400289A (zh) 智能用户分类方法、服务器及存储介质
CN110209571A (zh) 更新接口的测试方法及装置、存储介质、计算机设备
CN115357625A (zh) 结构化数据比对方法、装置、电子设备及存储介质
CN106294433B (zh) 设备信息处理方法及装置
CN104750823B (zh) 推广情况数据的查询方法及装置
CN113448867A (zh) 一种软件压力测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231208

AD01 Patent right deemed abandoned