CN109710894A - 文件内容提取方法、设备、装置及计算机可读存储介质 - Google Patents

文件内容提取方法、设备、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109710894A
CN109710894A CN201810945165.4A CN201810945165A CN109710894A CN 109710894 A CN109710894 A CN 109710894A CN 201810945165 A CN201810945165 A CN 201810945165A CN 109710894 A CN109710894 A CN 109710894A
Authority
CN
China
Prior art keywords
file
data
content
picture
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810945165.4A
Other languages
English (en)
Inventor
朱峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN201810945165.4A priority Critical patent/CN109710894A/zh
Publication of CN109710894A publication Critical patent/CN109710894A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件内容提取方法,文件内容提取方法包括以下步骤:获取便携式文档格式文件;按照预设转换规则转换所述便携式文档格式文件为超文本标记语言数据;按照预设解析规则解析所述超文本标记语言数据,以提取不同数据类型的内容数据;根据所述内容数据的数据类型,生成相应的内容文件。本发明还公开了一种文件内容提取设备、装置及计算机可读存储介质。本发明可提高文件内容提取的效率。

Description

文件内容提取方法、设备、装置及计算机可读存储介质
技术领域
本发明涉及测试技术领域,尤其涉及一种文件内容提取方法、设备、装置及计算机可读存储介质。
背景技术
便携式文档格式(Portable Document Format,PDF)作为一种电子文件的格式,是一种与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图象模型为基础,能够忠实地再现原稿的每一个字符、颜色以及图象。PDF文件格式与操作系统平台无关,也就是说,具有很好的通用性,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。由于上述优势,PDF文件目前得到了广泛的应用。然而,当涉及到处理大量PDF文件、提取其中的内容时,提取很不方便,甚至需要人工对PDF文件的内容进行筛选分类等,导致批量处理PDF文件的效率很低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种文件内容提取方法,旨在解决上述提取PDF文件内容效率低下的技术问题,提高PDF文件的处理效率。
为实现上述目的,本发明提供一种文件内容提取方法,包括以下步骤:
获取PDF文件;
按照预设转换规则转换所述PDF文件为超文本标记语言(HyperText MarkupLanguage,HTML)数据;
按照预设解析规则解析所述HTML数据,以提取不同数据类型的内容数据;
根据所述内容数据的数据类型,生成相应的内容文件。
优选地,在获取PDF文件的步骤之后,所述文件内容提取方法还包括以下步骤:
根据所述PDF文件,确定所述PDF文件的文件类型;
根据所述文件类型,确定预设转换规则;和/或根据所述文件类型,确定预设解析规则。
优选地,按照预设转换规则转换所述PDF文件为HTML数据的步骤包括:
读取所述PDF文件,将所述PDF文件转换为字节数据;
根据所述字节数据,生成与所述PDF文件相应的字节数组流数据;
将所述字节数组流数据转换为HTML数据。
优选地,所述PDF文件包括文本内容和图片内容中的至少一种;
将所述字节数组流数据转换为HTML数据的步骤包括:
提取所述字节数组流数据中对应于所述文本内容的文本数据;
将所述文本数据保存在所述HTML数据的文本节点中;和/或,
提取所述字节数组流数据中对应于所述图片内容的图片数据,其中,所述图片数据对应于至少一幅图片的图片内容;
按照预设编码规则对所述图片数据进行编码;
将编码后的图片数据保存在所述HTML数据的图片节点中,且每一幅图片对应占用一个图片节点。
优选地,按照预设解析规则解析所述HTML数据,以提取不同数据类型的内容数据的步骤包括:
根据所述HTML数据的标识符,按照预设解析规则提取所述文本节点中的文本数据;
根据所述文本数据生成第一文本文件,并将所述第一文本文件保存在第一指定路径;和/或
根据所述HTML数据的标识符,按照预设解析规则提取所述图片节点中的图片数据;
根据所述图片数据生成第一图片文件,并将所述第一图片文件保存在第二指定路径的图片列表中,其中,每一幅图片对应一个第一图片文件,每一个第一图片文件占据所述图片列表中的一项。
优选地,根据所述内容数据的数据类型,生成相应的内容文件的步骤包括:
读取所述第一文本文件;
根据HTML规则,去除所述第一文本文件中的格式信息,生成第二文本文件;
将所述第二文本文件保存在第三指定路径。
优选地,根据所述内容数据的数据类型,生成相应的内容文件的步骤包括:
读取所述第一图片文件;
按照预设解码规则对所述第一图片文件解码,生成第二图片文件;
将所述第二图片文件保存在第四指定路径的图片列表中,其中,每一幅图片对应一个第二图片文件,每一个第二图片文件占据所述图片列表中的一项。
为实现上述目的,本发明还提出一种文件内容提取设备,所述文件内容提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现文件内容提取方法的步骤,所述文件内容提取方法包括以下步骤:获取PDF文件;按照预设转换规则转换所述PDF文件为HTML数据;按照预设解析规则解析所述HTML数据,以提取不同数据类型的内容数据;根据所述内容数据的数据类型,生成相应的内容文件。
为实现上述目的,本发明还提出一种文件内容提取装置,所述文件内容提取装置包括:
获取模块,用以获取PDF文件;
转换模块,用以按照预设转换规则转换所述PDF文件为HTML数据;
解析模块,用以按照预设解析规则解析所述HTML数据,以提取不同数据类型的内容数据;
生成模块,用以根据所述内容数据的数据类型,生成相应的内容文件。
为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文件内容提取程序,所述文件内容提取程序被处理器执行时实现文件内容提取方法的步骤,所述文件内容提取方法包括以下步骤:获取PDF文件;按照预设转换规则转换所述PDF文件为HTML数据;按照预设解析规则解析所述HTML数据,以提取不同数据类型的内容数据;根据所述内容数据的数据类型,生成相应的内容文件。
在本发明技术方案中,文件内容提取方法包括以下步骤:获取PDF文件;按照预设转换规则转换PDF文件为HTML数据;按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据;根据内容数据的数据类型,生成相应的内容文件。通过将PDF文件转换为HTML数据,再从HTML数据中提取出不同数据类型的内容数据,分别生成相应的内容文件,例如文本文件、图片文件等,以便后续的调用,实现了PDF文件内容的自动提取,特别是在需要处理大量PDF文件时,采用本方案能够实现PDF文件的自动批量处理,从而提高了PDF文件的处理效率。
附图说明
图1为本发明文件内容提取方法第一实施例的流程示意图;
图2为本发明文件内容提取方法第二实施例的流程示意图;
图3为本发明文件内容提取方法第三实施例中步骤S100的细化流程示意图;
图4为本发明文件内容提取方法第四实施例中步骤S230的细化流程示意图;
图5为本发明文件内容提取方法第五实施例中步骤S230的细化流程示意图;
图6为本发明文件内容提取方法第七实施例中步骤S300的细化流程示意图;
图7为本发明文件内容提取方法第八实施例中步骤S300的细化流程示意图;
图8为本发明文件内容提取方法第十实施例中步骤S400的细化流程示意图;
图9为本发明文件内容提取方法第十一实施例中步骤S400的细化流程示意图;
图10是本发明实施例方案涉及的硬件运行环境的文件内容提取设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:通过将PDF文件转换为HTML数据,进一步从HTML数据中提取不同类型的内容数据,以生成相应的内容文件,从而提取出PDF文件的内容。
由于现有技术中PDF文件内容的提取主要依赖于人工筛选和比对,特别是在需要批量处理大量PDF文件的情况下,PDF文件的处理效率将十分低下。
本发明提供一种解决方案,通过将PDF文件转换为HTML数据,从HTML数据中提取出不同类型的内容数据,并生成相应的内容文件,以实现PDF文件的内容的自动提取,提高PDF文件的处理效率。
本发明第一实施例提供一种文件内容提取方法,如图1所示,文件内容提取方法包括以下步骤:
步骤S100、获取PDF文件;
PDF文件一般存储在硬盘等非易失性存储介质中,在获取PDF文件时,可以一次性获取全部待处理的PDF文件,当然,为了减少对内存资源的占用,也可以逐个获取PDF文件,也就是在上一个PDF文件的内容提取完成之后,再获取下一个PDF文件,继续内容提取。
步骤S200、按照预设转换规则转换所述PDF文件为HTML数据;
HTML数据的结构包括“头”部分和“主体”部分,其中“头”部分提供信息,“主体”部分提供具体内容。HTML是标准通用标记语言下的一个应用,也是一种规范和标准,通过标记符号来标记内容的各个部分,具有简单、可扩展性好、平台无关、通用性强等特点。由于PDF文件中存在多种类型的内容,为了针对不同类型的内容进行有针对性的提取,按照预设转换规则将PDF文件转换为HTML数据,在HTML数据中,各中类型的内容存在相应的标记,从而有利于提高后续步骤中内容提取的准确性和可靠性。预设转换规则可以是恒定的,也可以由相关人员在提取PDF文件内容之前进行设定,以满足特定的内容提取需求,后文中还将详细阐述。
步骤S300、按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据;
根据HTML规则,并结合预设解析规则解析HTML数据,以提取出不同数据类型的内容数据。其中,预设解析规则可以是恒定的,或者由相关人员在提取PDF文件内容之前进行设定,以满足特定的内容提取需求,后文中还将详细阐述。具体的,PDF文件内容可以包括文本内容、图片内容等,根据HTML数据中的标记符号,可以分别得到不同数据类型的内容数据。
步骤S400、根据所述内容数据的数据类型,生成相应的内容文件。
在提取出不同数据类型的内容数据之后,分别根据其数据类型,生成相应的内容文件。例如,根据全部文本内容生成文本文件,文本文件中包括了PDF文件中的全部文本信息,以待后续调用。同时,还可以根据图片内容生成图片文件,通常,一幅图片对应于一个图片文件,以保持各图片文件的相对独立性,方便后续步骤中的调用。特别是在涉及到图片比对等操作的情况下,一幅图片单独生成一个图片文件有利于自动根据像素的匹配程度实现图片比对等操作。
在本实施例中,文件内容提取方法包括以下步骤:获取PDF文件;按照预设转换规则转换PDF文件为HTML数据;按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据;根据内容数据的数据类型,生成相应的内容文件。通过将PDF文件转换为HTML数据,再从HTML数据中提取出不同数据类型的内容数据,分别生成相应的内容文件,例如文本文件、图片文件等,以便后续的调用,实现了PDF文件内容的自动提取,特别是在需要处理大量PDF文件时,采用本方案能够实现PDF文件的自动批量处理,从而提高了PDF文件的处理效率。
基于上述第一实施例,如图2所示,在本发明的第二实施例中,在步骤S100之后,文件内容提取方法还包括以下步骤:
步骤S510、根据PDF文件,确定PDF文件的文件类型;
步骤S520、根据文件类型,确定预设转换规则;和/或根据文件类型,确定预设解析规则。
考虑到在PDF文件中,可能包括大量内容,而在提取PDF文件内容时,只需要其中的一部分内容。为了提高PDF文件的处理效率,同时减少内容提取过程中所需的处理资源和存储资源,通过预设转换规则和/或预设解析规则对内容提取过程进行调控。具体的,所需提取的内容通常与PDF文件的文件类型相关,例如,对于协议类PDF文件,通常包括协议标题、协议正文和签名区三个部分,在有些情况下,只需要提取协议正文的内容。或者,对于表单类PDF文件,通常包括表单表头和表单正文两个部分,在有些情况下,只需要提取表单正文中各参数名和参数值的内容。那么,可以通过确定PDF的文件类型,分别确定不同的预设转换规则或预设解析规则。在一具体示例中,在步骤S200中,通过预先确定预设转换规则,只转换PDF文件中与所需提取的内容相关的部分为HTML数据。在另一具体示例中,在步骤S300中,通过预先确定预设解析规则,只解析HTML数据中与所需提取的内容相关的部分。在又一具体示例中,也可以同时根据文件类型确定预设转换规则和预设解析规则,其中,预设转换规则所转换的内容涵盖了所需提取的内容,以免造成数据的缺失,预设解析规则与预设转换规则相配合,可以起到相互验证的效果。例如,预设转换规则和预设解析规则都是根据所需提取内容确定的,不包括其它冗余内容的提取或转换,那么,当预设解析规则解析完全部HTML数据后,若仍存在未解析的HTML数据,则可能是转换或解析过程中出现了问题,需要进一步查看,通过预设转换规则和预设解析规则之间的相互验证,有利于提高内容提取的可靠性。
基于上述各实施例,如图3所示,在本发明的第三实施例中,步骤S200包括:
步骤S210、读取PDF文件,将PDF文件转换为字节(byte)数据;
步骤S220、根据byte数据,生成与PDF文件相应的字节数组流数据;
步骤S230、将字节数组流数据转换为HTML数据。
具体的,可以通过FileInputStream类读取PDF文件,将读取到的PDF文件转换为byte数据,再通过ByteArrayInputStream类生成与PDF文件相应的字节数组流,即流数据。由于流数据具有很好的转换可靠性和传输可靠性,有利于避免PDF文件在转换或传输过程中出现错误,从而保障了PDF内容提取的准确性。进一步的,可以使用PDFBox读取根据PDF产生的流数据,以生成HTML数据。其中,PDFBox是BSD许可下的源码开放项目,是一个为开发人员读取和创建PDF文档而准备的纯Java类库。
进一步的,基于上述第三实施例,如图4所示,在本发明的第四实施例中,PDF文件包括文本内容;
步骤S230包括:
步骤S231、提取字节数组流数据中对应于文本内容的文本数据;
步骤S232、将文本数据保存在HTML数据的文本节点中。
在PDF文件包括文本内容的情况下,相应的,字节数组流数据包括文本数据,通过提取其中对应于文本内容的文本数据,并将文本数据保存在HTML数据的文本节点中,以待后续处理。需要注意的是,这里的文本数据依然是HTML数据形式的,并且,通常将PDF文件中所有所需的文本内容对应的文本数据保存在同一个文本节点中。
进一步的,基于上述第三实施例,如图5所示,在本发明的第五实施例中,PDF文件包括图片内容;
步骤S230包括:
步骤S233、提取字节数组流数据中对应于图片内容的图片数据,其中,图片数据对应于至少一幅图片的图片内容;
步骤S234、按照预设编码规则对图片数据进行编码;
步骤S235、将编码后的图片数据保存在HTML数据的图片节点中,且每一幅图片对应占用一个图片节点。
在PDF文件包括图片内容的情况下,相应的,字节数组流数据包括图片数据,通过提取其中对应于图片内容的图片数据,并将图片数据保存在HTML数据的图片节点中,以待后续处理。需要注意的是,由于图片数据通常较长,为了便于传输,按照预设编码规则对图片数据进行编码,在一种具体的编码方式中,采用base64进行编码,并将编码后的图片数据保存在HTML数据的图片节点中,以节约存储和传输资源。由于图片数据本身的复杂性,为了避免不同图片处于同一个图片节点中造成混乱,也不便图片的比较等操作,在这里,一幅图片对应占用一个图片节点。
需要注意的是,在本发明的第六实施例中,PDF文件也可以同时包括文本内容和图片内容,则可以根据上述第四实施例和第五实施例的方法分别对文本内容和图片内容进行处理。在一具体示例中,可以把文本数据保存在HTML数据的第一个节点中,把图片数据按照各幅图片的顺序依次保存在HTML数据的第二个及其之后的节点中。
基于上述第四至第六实施例,如图6所示,在本发明的第七实施例中,步骤S300包括:
步骤S310、根据HTML数据的标识符,按照预设解析规则提取文本节点中的文本数据;
步骤S320、根据文本数据生成第一文本文件,并将第一文本文件保存在第一指定路径。
在本实施例中,根据HTML数据的标识符,按照预设解析规则解析HTML数据,得到文本节点中的文本数据,并根据文本数据生成第一文本文件,并保存在第一指定路径。其中,第一指定路径可以在内存中,此时第一文本文件可以直接被调用,当然,第一指定路径也可以是非易失性存储介质中的,以实现第一文本文件的持续化,便于以后随时调用。
基于上述第四至第六实施例,如图7所示,在本发明的第八实施例中,步骤S300包括:
步骤S330、根据HTML数据的标识符,按照预设解析规则提取图片节点中的图片数据;
步骤S340、根据图片数据生成第一图片文件,并将第一图片文件保存在第二指定路径的图片列表中,其中,每一幅图片对应一个第一图片文件,每一个第一图片文件占据图片列表中的一项。
在本实施例中,根据HTML数据的标识符,按照预设解析规则解析HTML数据,得到图片节点中的图片数据,并根据图片数据生成第一图片文件,并保存在第二指定路径的图片列表中。当存在多幅图片时,相应将产生多个第一图片文件。其中,第二指定路径可以在内存中,此时第一图片文件可以直接被调用,当然,第二指定路径也可以是非易失性存储介质中的,以实现第一图片文件的持续化,便于以后随时调用。
需要注意的是,在本发明的第九实施例中,PDF文件同时包括文本内容和图片内容,则可以根据上述第七实施例和第八实施例的方法分别对文本数据和图片数据进行提取,并生成相应的第一文本文件和第一图片文件。进一步的,还可以接收提取指令,以提取文本数据和图片数据中所需的那部分。以减轻系统的处理负担。
基于上述第七至第九实施例,如图8所示,在本发明的第十实施例中,步骤S400包括:
步骤S410、读取第一文本文件;
步骤S420、根据HTML规则,去除第一文本文件中的格式信息,生成第二文本文件;
步骤S430、将第二文本文件保存在第三指定路径。
在本实施例中,进一步对文本文件进行处理。例如,在协议类PDF文件的正文部分,可能有部分内容是具有下划线的,例如根据不同客户的不同所改变的甲方名称或乙方名称等,以便用户的查看。然而,在后续处理PDF文件内容时,通常并不需要这样的格式信息。因此,根据HTML规则,去除第一文本文件中的格式信息,生成第二文本文件。可以理解的是,第二文本文件为纯文本文件,便于后续系统的自动处理,同时也减小了对存储资源等的占用。将第二文本文件保存在第三指定路径,其中,第三指定路径可以在内存中,此时第二文本文件可以直接被调用,当然,第三指定路径也可以是非易失性存储介质中的,以实现第二文本文件的持续化,便于以后随时调用。
基于上述第七至第九实施例,如图9所示,在本发明的第十一实施例中,步骤S400包括:
步骤S440、读取第一图片文件;
步骤S450、按照预设解码规则对第一图片文件解码,生成第二图片文件;
步骤S460、将第二图片文件保存在第四指定路径的图片列表中,其中,每一幅图片对应一个第二图片文件,每一个第二图片文件占据图片列表中的一项。
在本实施例中,进一步对图片文件进行处理。直接以编码格式存在的图片文件通常是不能直接显示的,为了便于用户的查看,需要按照预设解码规则对第一图片文件解码,以生成可被查看的第二图片文件。预设解码规则与预设编码规则相对应,在以base64编码图片时,相应的根据base64解码图片。将解码后所得的第二图片文件保存在第四指定路径,其中,第四指定路径可以在内存中,此时第二图片文件可以直接被调用,当然,第四指定路径也可以是非易失性存储介质中的,以实现第二图片文件的持续化,便于以后随时调用,且便于用户进行查看。
需要注意的是,在本发明的第十二实施例中,PDF文件同时包括文本内容和图片内容,则可以根据上述第九实施例和第十实施例的方法分别对第一文本文件和第二文本文件进行后续处理,以满足相应的需求。
如图10所示,图10是本发明实施例方案涉及的硬件运行环境的终端,即文件内容提取设备的结构示意图。
本发明实施例终端可以是服务器、PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图10所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图10中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文件内容提取程序。
在图10所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文件内容提取程序,并执行以下操作:
获取PDF文件;
按照预设转换规则转换PDF文件为HTML数据;
按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据;
根据内容数据的数据类型,生成相应的内容文件。
进一步的,处理器1001可以用于调用存储器1005中存储的文件内容提取程序,在获取PDF文件的操作之后,还执行以下操作:
根据PDF文件,确定PDF文件的文件类型;
根据文件类型,确定预设转换规则;和/或根据文件类型,确定预设解析规则。
进一步的,处理器1001可以用于调用存储器1005中存储的文件内容提取程序,按照预设转换规则转换PDF文件为HTML数据的操作包括:
读取PDF文件,将PDF文件转换为字节数据;
根据字节数据,生成与PDF文件相应的字节数组流数据;
将字节数组流数据转换为HTML数据。
进一步的,处理器1001可以用于调用存储器1005中存储的文件内容提取程序,PDF文件包括文本内容和图片内容中的至少一种;
将字节数组流数据转换为HTML数据的操作包括:
提取字节数组流数据中对应于文本内容的文本数据;
将文本数据保存在HTML数据的文本节点中;和/或,
提取字节数组流数据中对应于图片内容的图片数据,其中,图片数据对应于至少一幅图片的图片内容;
按照预设编码规则对图片数据进行编码;
将编码后的图片数据保存在HTML数据的图片节点中,且每一幅图片对应占用一个图片节点。
进一步的,处理器1001可以用于调用存储器1005中存储的文件内容提取程序,按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据的操作包括:
根据HTML数据的标识符,按照预设解析规则提取文本节点中的文本数据;
根据文本数据生成第一文本文件,并将第一文本文件保存在第一指定路径;和/或
根据HTML数据的标识符,按照预设解析规则提取图片节点中的图片数据;
根据图片数据生成第一图片文件,并将第一图片文件保存在第二指定路径的图片列表中,其中,每一幅图片对应一个第一图片文件,每一个第一图片文件占据图片列表中的一项。
进一步的,处理器1001可以用于调用存储器1005中存储的文件内容提取程序,根据内容数据的数据类型,生成相应的内容文件的操作包括:
读取第一文本文件;
根据HTML规则,去除第一文本文件中的格式信息,生成第二文本文件;
将第二文本文件保存在第三指定路径。
进一步的,处理器1001可以用于调用存储器1005中存储的文件内容提取程序,根据内容数据的数据类型,生成相应的内容文件的操作包括:
读取第一图片文件;
按照预设解码规则对第一图片文件解码,生成第二图片文件;
将第二图片文件保存在第四指定路径的图片列表中,其中,每一幅图片对应一个第二图片文件,每一个第二图片文件占据图片列表中的一项。
此外,本发明实施例还提出一种文件内容提取装置,文件内容提取装置包括:
获取模块,用以获取PDF文件;
转换模块,用以按照预设转换规则转换PDF文件为HTML数据;
解析模块,用以按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据;
生成模块,用以根据内容数据的数据类型,生成相应的内容文件。
进一步的,文件内容提取装置还包括:
文件类型模块,用以根据PDF文件,确定PDF文件的文件类型;
转换规则模块,用以根据文件类型,确定预设转换规则;和/或,
解析规则模块,用以根据文件类型,确定预设解析规则。
进一步的,转换模块包括:
字节转换单元,用以读取PDF文件,将PDF文件转换为字节数据;
流数据转换单元,用以根据字节数据,生成与PDF文件相应的字节数组流数据;
HTML转换单元,用以将字节数组流数据转换为HTML数据。
进一步的,PDF文件包括文本内容和图片内容中的至少一种;
HTML转换单元包括:
文本提取单元,用以提取字节数组流数据中对应于文本内容的文本数据;
文本记录单元,用以将文本数据保存在HTML数据的文本节点中;和/或,
图片提取单元,用以提取字节数组流数据中对应于图片内容的图片数据,其中,图片数据对应于至少一幅图片的图片内容;
编码单元,用以按照预设编码规则对图片数据进行编码;
图片记录单元,用以将编码后的图片数据保存在HTML数据的图片节点中,且每一幅图片对应占用一个图片节点。
进一步的,解析模块包括:
文本解析单元,用以根据HTML数据的标识符,按照预设解析规则提取文本节点中的文本数据;
文本文件生成单元,用以根据文本数据生成第一文本文件,并将第一文本文件保存在第一指定路径;和/或,
图片解析单元,用以根据HTML数据的标识符,按照预设解析规则提取图片节点中的图片数据;
图片文件生成单元,用以根据图片数据生成第一图片文件,并将第一图片文件保存在第二指定路径的图片列表中,其中,每一幅图片对应一个第一图片文件,每一个第一图片文件占据图片列表中的一项。
进一步的,生成模块包括:
文本文件读取单元,用以读取第一文本文件;
文本文件处理单元,用以根据HTML规则,去除第一文本文件中的格式信息,生成第二文本文件;
文本文件保存单元,用以将第二文本文件保存在第三指定路径。
进一步的,生成模块还包括:
图片文件读取单元,用以读取第一图片文件;
图片文件处理单元,用以按照预设解码规则对第一图片文件解码,生成第二图片文件;
图片文件保存单元,用以将第二图片文件保存在第四指定路径的图片列表中,其中,每一幅图片对应一个第二图片文件,每一个第二图片文件占据图片列表中的一项。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质上存储有文件内容提取程序,文件内容提取程序被处理器执行时实现如下操作:
获取PDF文件;
按照预设转换规则转换PDF文件为HTML数据;
按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据;
根据内容数据的数据类型,生成相应的内容文件。
进一步的,文件内容提取程序被处理器执行时,在获取PDF文件的操作之后,还执行以下操作:
根据PDF文件,确定PDF文件的文件类型;
根据文件类型,确定预设转换规则;和/或根据文件类型,确定预设解析规则。
进一步的,文件内容提取程序被处理器执行时,按照预设转换规则转换PDF文件为HTML数据的操作包括:
读取PDF文件,将PDF文件转换为字节数据;
根据字节数据,生成与PDF文件相应的字节数组流数据;
将字节数组流数据转换为HTML数据。
进一步的,文件内容提取程序被处理器执行时,PDF文件包括文本内容和图片内容中的至少一种;
将字节数组流数据转换为HTML数据的操作包括:
提取字节数组流数据中对应于文本内容的文本数据;
将文本数据保存在HTML数据的文本节点中;和/或,
提取字节数组流数据中对应于图片内容的图片数据,其中,图片数据对应于至少一幅图片的图片内容;
按照预设编码规则对图片数据进行编码;
将编码后的图片数据保存在HTML数据的图片节点中,且每一幅图片对应占用一个图片节点。
进一步的,按照预设解析规则解析HTML数据,以提取不同数据类型的内容数据的操作包括:
根据HTML数据的标识符,按照预设解析规则提取文本节点中的文本数据;
根据文本数据生成第一文本文件,并将第一文本文件保存在第一指定路径;和/或
根据HTML数据的标识符,按照预设解析规则提取图片节点中的图片数据;
根据图片数据生成第一图片文件,并将第一图片文件保存在第二指定路径的图片列表中,其中,每一幅图片对应一个第一图片文件,每一个第一图片文件占据图片列表中的一项。
进一步的,根据内容数据的数据类型,生成相应的内容文件的操作包括:
读取第一文本文件;
根据HTML规则,去除第一文本文件中的格式信息,生成第二文本文件;
将第二文本文件保存在第三指定路径。
进一步的,文件内容提取程序被处理器执行时,根据内容数据的数据类型,生成相应的内容文件的操作包括:
读取第一图片文件;
按照预设解码规则对第一图片文件解码,生成第二图片文件;
将第二图片文件保存在第四指定路径的图片列表中,其中,每一幅图片对应一个第二图片文件,每一个第二图片文件占据图片列表中的一项。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文件内容提取方法,其特征在于,所述文件内容提取方法包括以下步骤:
获取便携式文档格式文件;
按照预设转换规则转换所述便携式文档格式文件为超文本标记语言数据;
按照预设解析规则解析所述超文本标记语言数据,以提取不同数据类型的内容数据;
根据所述内容数据的数据类型,生成相应的内容文件。
2.如权利要求1所述的文件内容提取方法,其特征在于,在获取便携式文档格式文件的步骤之后,所述文件内容提取方法还包括以下步骤:
根据所述便携式文档格式文件,确定所述便携式文档格式文件的文件类型;
根据所述文件类型,确定预设转换规则;和/或根据所述文件类型,确定预设解析规则。
3.如权利要求1或2所述的文件内容提取方法,其特征在于,按照预设转换规则转换所述便携式文档格式文件为超文本标记语言数据的步骤包括:
读取所述便携式文档格式文件,将所述便携式文档格式文件转换为字节数据;
根据所述字节数据,生成与所述便携式文档格式文件相应的字节数组流数据;
将所述字节数组流数据转换为超文本标记语言数据。
4.如权利要求3所述的文件内容提取方法,其特征在于,所述便携式文档格式文件包括文本内容和图片内容中的至少一种;
将所述字节数组流数据转换为超文本标记语言数据的步骤包括:
提取所述字节数组流数据中对应于所述文本内容的文本数据;
将所述文本数据保存在所述超文本标记语言数据的文本节点中;和/或,
提取所述字节数组流数据中对应于所述图片内容的图片数据,其中,所述图片数据对应于至少一幅图片的图片内容;
按照预设编码规则对所述图片数据进行编码;
将编码后的图片数据保存在所述超文本标记语言数据的图片节点中,且每一幅图片对应占用一个图片节点。
5.如权利要求4所述的文件内容提取方法,其特征在于,按照预设解析规则解析所述超文本标记语言数据,以提取不同数据类型的内容数据的步骤包括:
根据所述超文本标记语言数据的标识符,按照预设解析规则提取所述文本节点中的文本数据;
根据所述文本数据生成第一文本文件,并将所述第一文本文件保存在第一指定路径;和/或
根据所述超文本标记语言数据的标识符,按照预设解析规则提取所述图片节点中的图片数据;
根据所述图片数据生成第一图片文件,并将所述第一图片文件保存在第二指定路径的图片列表中,其中,每一幅图片对应一个第一图片文件,每一个第一图片文件占据所述图片列表中的一项。
6.如权利要求5所述的文件内容提取方法,其特征在于,根据所述内容数据的数据类型,生成相应的内容文件的步骤包括:
读取所述第一文本文件;
根据超文本标记语言规则,去除所述第一文本文件中的格式信息,生成第二文本文件;
将所述第二文本文件保存在第三指定路径。
7.如权利要求5所述的文件内容提取方法,其特征在于,根据所述内容数据的数据类型,生成相应的内容文件的步骤包括:
读取所述第一图片文件;
按照预设解码规则对所述第一图片文件解码,生成第二图片文件;
将所述第二图片文件保存在第四指定路径的图片列表中,其中,每一幅图片对应一个第二图片文件,每一个第二图片文件占据所述图片列表中的一项。
8.一种文件内容提取设备,其特征在于,所述文件内容提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的文件内容提取方法的步骤。
9.一种文件内容提取装置,其特征在于,所述文件内容提取装置包括:
获取模块,用以获取便携式文档格式文件;
转换模块,用以按照预设转换规则转换所述便携式文档格式文件为超文本标记语言数据;
解析模块,用以按照预设解析规则解析所述超文本标记语言数据,以提取不同数据类型的内容数据;
生成模块,用以根据所述内容数据的数据类型,生成相应的内容文件。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文件内容提取程序,所述文件内容提取程序被处理器执行时实现如权利要求1至7中任一项所述的文件内容提取方法的步骤。
CN201810945165.4A 2018-08-20 2018-08-20 文件内容提取方法、设备、装置及计算机可读存储介质 Pending CN109710894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810945165.4A CN109710894A (zh) 2018-08-20 2018-08-20 文件内容提取方法、设备、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810945165.4A CN109710894A (zh) 2018-08-20 2018-08-20 文件内容提取方法、设备、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109710894A true CN109710894A (zh) 2019-05-03

Family

ID=66253783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810945165.4A Pending CN109710894A (zh) 2018-08-20 2018-08-20 文件内容提取方法、设备、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109710894A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795393A (zh) * 2019-10-31 2020-02-14 中孚安全技术有限公司 一种解析文档二进制格式的方法,系统,设备及可读存储介质
CN113448923A (zh) * 2020-04-17 2021-09-28 北京新氧科技有限公司 文件生成方法、装置及终端
CN113722153A (zh) * 2021-09-01 2021-11-30 珠海华发金融科技研究院有限公司 文本图片备份方法、装置、设备及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006025928A1 (de) * 2006-06-02 2007-12-06 Siemens Ag Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente
US20090030671A1 (en) * 2007-07-27 2009-01-29 Electronics And Telecommunications Research Institute Machine translation method for PDF file
CN107908602A (zh) * 2017-12-15 2018-04-13 北京文因互联科技有限公司 一种文件检测方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006025928A1 (de) * 2006-06-02 2007-12-06 Siemens Ag Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente
US20090030671A1 (en) * 2007-07-27 2009-01-29 Electronics And Telecommunications Research Institute Machine translation method for PDF file
CN107908602A (zh) * 2017-12-15 2018-04-13 北京文因互联科技有限公司 一种文件检测方法及其装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795393A (zh) * 2019-10-31 2020-02-14 中孚安全技术有限公司 一种解析文档二进制格式的方法,系统,设备及可读存储介质
CN113448923A (zh) * 2020-04-17 2021-09-28 北京新氧科技有限公司 文件生成方法、装置及终端
CN113448923B (zh) * 2020-04-17 2023-09-12 北京新氧科技有限公司 文件生成方法、装置及终端
CN113722153A (zh) * 2021-09-01 2021-11-30 珠海华发金融科技研究院有限公司 文本图片备份方法、装置、设备及系统

Similar Documents

Publication Publication Date Title
CN104185845B (zh) 用于提供网页的二进制表示的系统和方法
CN107133578B (zh) 一种基于文件传输的人脸表情识别方法及系统
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
EP1820122A1 (en) Form related data reduction
JP2002304419A5 (zh)
US8849726B2 (en) Information processing apparatus and control method for the same
JP2008176820A (ja) 携帯用計算デバイスへの無線通信媒体を介するコンテンツ送達のためのシステムおよび方法
CN109710894A (zh) 文件内容提取方法、设备、装置及计算机可读存储介质
CN110727417B (zh) 一种数据处理方法和装置
CN113778419B (zh) 多媒体数据的生成方法、装置、可读介质及电子设备
WO2021093673A1 (zh) 邮件发送方法、装置、设备及计算机可读存储介质
US20120005564A1 (en) Content distribution system and method
CN112084959A (zh) 一种人群图像处理方法及装置
CN116912847A (zh) 一种医学文本识别方法、装置、计算机设备及存储介质
JP2009075977A (ja) 携帯端末閲覧文書配信サーバ、携帯端末、及び携帯端末閲覧文書配信システム
CN110970011A (zh) 图片处理方法、装置、设备及计算机可读存储介质
CN112785669B (zh) 一种虚拟形象合成方法、装置、设备及存储介质
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
US11532111B1 (en) Systems and methods for generating comic books from video and images
CN114945108A (zh) 一种用于辅助视觉障碍者理解图片的方法及装置
JP2003196269A (ja) マークアップ言語で表わされた文書の解析方法
JP6900334B2 (ja) 映像出力装置、映像出力方法および映像出力プログラム
JP2022181319A (ja) 動画検索装置、動画検索システム及びプログラム
CN113626075A (zh) 相似代码检测方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240531