CN113408248A - 一种pdf目录生成方法、装置、计算机设备及可读存储介质 - Google Patents

一种pdf目录生成方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN113408248A
CN113408248A CN202110638300.2A CN202110638300A CN113408248A CN 113408248 A CN113408248 A CN 113408248A CN 202110638300 A CN202110638300 A CN 202110638300A CN 113408248 A CN113408248 A CN 113408248A
Authority
CN
China
Prior art keywords
directory
pdf
webpage
catalog
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110638300.2A
Other languages
English (en)
Inventor
顾凌云
郭志攀
王伟
姜智聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Bingjian Information Technology Co ltd
Original Assignee
Nanjing Bingjian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Bingjian Information Technology Co ltd filed Critical Nanjing Bingjian Information Technology Co ltd
Priority to CN202110638300.2A priority Critical patent/CN113408248A/zh
Publication of CN113408248A publication Critical patent/CN113408248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种PDF目录生成方法、装置、计算机设备及可读存储介质,包括:获取待处理的PDF以及对应的目录章节数据集合,利用网页标记语言基于目录章节数据集合将待处理网页页面编写完成为目录网页页面,驱动网页应用打开该目录网页页面,并网页应用将目录网页页面输出为可以展示目标目录的目录PDF,再将PDF和目录PDF合并,以完成PDF的目录生成,相较于相关技术中PDF和PDF目录的生成方式必须相同,且生成的PDF目录较为依赖原始PDF代码的问题,本申请提供的方案利用网页标记语言参与PDF目录的生成,提高了PDF目录的兼容性,降低了PDF目录和原始PDF代码之间的耦合性。

Description

一种PDF目录生成方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种PDF目录生成方法、装置、计算机设备及可读存储介质。
背景技术
目前在相关技术中,一般使用Itext API生成PDF目录和内容。使用Itext API生成PDF目录,仅仅支持使用Itext生成内容的PDF,不支持其他方式生成的PDF,也不支持在现有的PDF基础上加上目录,具有很差的PDF内容生成方案的兼容性,不仅如此,利用该方案生成PDF目录的代码依赖生成PDF内容的代码,生成PDF内容和生成PDF目录的代码是耦合在一起的,具有很差的耦合性。
发明内容
本申请提供一种PDF目录生成方法、装置、计算机设备及可读存储介质,能够提高生成的PDF目录的兼容性以及降低生成的PDF目录和待处理的PDF之间的耦合性。
第一方面,本申请实施例提供一种PDF目录生成方法,应用于计算机设备,方法包括:
获取待处理的PDF以及PDF对应的目录章节数据集合,目录章节数据集合包括目录章节和目录章节对应的页码;
利用网页标记语言编写待处理网页页面,并根据目录章节数据集合和待处理网页页面构建目录网页页面,目录网页页面包括目录章节和目录章节对应的页码构成的目标目录;
驱动网页应用打开目录网页页面,并调用网页应用将目录网页页面输出为目录PDF,目录PDF用于展示目标目录;
将PDF和目录PDF合并,完成PDF的目录生成。
在一种可能的实施方式中,获取待处理的PDF以及PDF对应的目录章节数据集合,包括:
获取PDF对应的待处理目录章节集合;
获取PDF包括的多个页码以及每个页码对应的文字内容;
从文字内容中确定出与待处理目录章节集合匹配的目标文字内容,以及目标文字内容对应的目标页码;
将目标文字内容作为目录章节、将目标文字内容对应的目标页码作为目录章节对应的页码,得到PDF对应的目录章节数据集合。
在一种可能的实施方式中,待处理目录章节集合包括多个待处理目录章节;
从文字内容中确定出与待处理目录章节集合匹配的目标文字内容,以及目标文字内容对应的目标页码,包括:
按多个页码的排列顺序遍历每个页码对应的文字内容;
遍历多个待处理目录章节,根据正则表达式在每个页码对应的文字内容中匹配多个待处理目录章节;
将匹配成功的文字内容作为目标文字内容,并将目标文字内容对应的页码作为目标页码。
在一种可能的实施方式中,计算机设备与存储服务器通信连接,获取待处理的PDF以及PDF对应的目录章节数据集合,包括:
将PDF和目录章节数据集合存储至存储服务器,并为目录章节数据集合配置唯一标识码;
利用网页标记语言编写待处理网页页面,并根据目录章节数据集合和待处理网页页面构建目录网页页面,包括:
利用超文本标记语言编写待处理网页页面;
通过预设查询应用程序接口,从存储服务器中调用目录章节数据集合,预设查询应用程序接口配置有唯一标识码;
根据目录章节和目录章节对应的页码生成包括目标目录的目录网页页面。
在一种可能的实施方式中,驱动网页应用配置有PDF转化命令,驱动网页应用打开目录网页页面,并调用网页应用将目录网页页面输出为目录PDF,包括:
驱动网页应用打开目录网页页面,并渲染目录网页页面;
当判定目录网页页面渲染完成后,调用PDF转化命令将目录网页页面输出为目录PDF。
在一种可能的实施方式中,根据目录章节和目录章节对应的页码生成包括目标目录的目录网页页面,还包括:
利用超文本标记语言编写渲染状态查询标签;
判定目录网页页面渲染是否完成的步骤,包括:
查询渲染状态查询标签是否为渲染完成标签;
当查询到渲染状态查询标签为渲染完成标签,则判定目录网页页面渲染完成;
当未查询到渲染状态查询标签为渲染完成标签,则判定目录网页页面渲染未完成,并返回查询渲染状态查询标签是否为渲染完成标签的步骤,直至查询到渲染状态查询标签为渲染完成标签。
在一种可能的实施方式中,将PDF和目录PDF合并,完成PDF的目录生成,包括:
利用IText库将PDF和目录PDF合并,完成PDF的目录生成。
第二方面,本申请实施例一种PDF目录生成装置,应用于计算机设备,装置包括:
获取模块,用于获取待处理的PDF以及PDF对应的目录章节数据集合,目录章节数据集合包括目录章节和目录章节对应的页码;
构建模块,用于利用网页标记语言编写待处理网页页面,并根据目录章节数据集合和待处理网页页面构建目录网页页面,目录网页页面包括目录章节和目录章节对应的页码构成的目标目录;
转换模块,用于驱动网页应用打开目录网页页面,并调用网页应用将目录网页页面输出为目录PDF,目录PDF用于展示目标目录;
生成模块,用于将PDF和目录PDF合并,完成PDF的目录生成。
第三方面,本申请实施例提供一种计算机设备,计算机设备包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备执行第一方面至少一种可能的实施方式中的PDF目录生成方法。
第四方面,本申请实施例一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备执行第一方面至少一种可能的实施方式中的PDF目录生成方法。
相比现有技术,本申请提供的有益效果包括:本申请实施例公开了一种PDF目录生成方法、装置、计算机设备及可读存储介质,包括:获取待处理的PDF以及对应的目录章节数据集合,利用网页标记语言基于目录章节数据集合将待处理网页页面编写完成为目录网页页面,驱动网页应用打开该目录网页页面,并网页应用将目录网页页面输出为可以展示目标目录的目录PDF,再将PDF和目录PDF合并,以完成PDF的目录生成,相较于相关技术中PDF和PDF目录之间生成方式必须相同,且生成的PDF目录较为依赖原始PDF代码的问题,本申请提供的方案利用网页标记语言参与PDF目录的生成,提高了PDF目录的兼容性,降低了PDF目录和原始PDF代码之间的耦合性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的PDF目录生成方法的步骤流程示意图;
图2为本申请实施例提供的PDF目录生成装置的结构示意框图;
图3为本申请实施例提供的计算机设备的结构示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的具体实施方式进行详细说明。
在相关技术中,为了能够实现PDF目录的生成,一般利用Java组件中的Itext API生成PDF目录和内容,该方案一般通过以下方式实现使用Itext API新增一个PDF文档,开始监听目录章节页码;使用Itext API创建PDF章节名称、章节内容;监听目录章节页码结束,得到每个章节名称及其页码;根据每个章节名称及其页码,使用Itext API创建目录章节、目录页码,PDF目录生成完成。
相关技术中存在以下问题:若要通过Itext监听目录页码,来实现PDF目录的生成,必须使用Itext来生成PDF内容。而Itext等Java PDF工具不太适合生成复杂样式和复杂图表的PDF,因为Itext毕竟是提供API来创建PDF内容。不仅如此,使用Itext API生成PDF目录,仅仅支持使用Itext生成内容的PDF,不支持其他方式生成的PDF,也不支持在现有的PDF基础上加上目录,具有很差的PDF内容生成方案的兼容性。同时,生成PDF目录的代码依赖生成PDF内容的代码,生成PDF内容和生成PDF目录的代码是耦合在一起的,具有很差的耦合性。
为了解决前述背景技术中的技术问题,图1为本申请实施例提供的PDF目录生成方法的流程示意图,下面对该PDF目录生成方法进行详细介绍。
步骤S201,获取待处理的PDF以及PDF对应的目录章节数据集合。
其中,目录章节数据集合包括目录章节和目录章节对应的页码。
步骤S202,利用网页标记语言编写待处理网页页面,并根据目录章节数据集合和待处理网页页面构建目录网页页面。
其中,目录网页页面包括目录章节和目录章节对应的页码构成的目标目录。
步骤S203,驱动网页应用打开目录网页页面,并调用网页应用将目录网页页面输出为目录PDF。
其中,目录PDF用于展示目标目录。
步骤S204,将PDF和目录PDF合并,完成PDF的目录生成。
在本申请示例中,待处理的PDF和PDF对应的目录章节数据集合可以是预先获取的,目录章节数据集合可以包括目录章节和目录章节对应的页码,目录章节可以是指目录的显示名称,例如“第一章XXX”。利用网页标记语言编写待处理网页页面,并基于目录章节和目录章节对应的页码构建目录网页页面。为了实现目录网页页面的可视化,利用网页应用将目录网页页面输出为目录PDF,最后将前述待处理的PDF和输出的目录PDF合并,完成PDF的目录生成。
通过上述方案,利用了网页标记语言编写待处理网页页面作为PDF目录数据的载体,在后续与待处理的PDF合并时能够兼容PDF的生成方式,没有限制。同时也实现了脱离原PDF进行相对独立的PDF目录的生成,降低了PDF内容和PDF目录的耦合性。
在一种可能的实施方式中,前述步骤S201可以通过以下方式执行实施。
子步骤S201-1,获取PDF对应的待处理目录章节集合。
子步骤S201-2,获取PDF包括的多个页码以及每个页码对应的文字内容。
子步骤S201-3,从文字内容中确定出与待处理目录章节集合匹配的目标文字内容,以及目标文字内容对应的目标页码。
子步骤S201-4,将目标文字内容作为目录章节、将目标文字内容对应的目标页码作为目录章节对应的页码,得到PDF对应的目录章节数据集合。
在本申请实施例中,PDF对应的待处理目录章节集合可以是在生成待处理的PDF的同时生成的,可以通过将待处理的PDF包括的多个页码、以及每个页码对应的文字内容与待处理目录章节集合进行比对的方式筛选出与待处理目录章节集合匹配的目标文字内容,以及目标文字内容对应的目标页码。例如,待处理目录章节集合可以包括如下数据,“第一章AAA”、“第二章BBB”和“第三章CCC”等。可以从文字内容中进行查找,当匹配到“第一章AAA”时,记录当前的页码a,并将“第一章AAA”作为目录章节,将对应的页码a作为目录章节,由此,便可以得到PDF对应的目录章节数据集合。
在一种可能的实施方式中,待处理目录章节集合包括多个待处理目录章节;前述子步骤S201-3可以通过以下详细的示意实现。
(1)按多个页码的排列顺序遍历每个页码对应的文字内容。
(2)遍历多个待处理目录章节,根据正则表达式在每个页码对应的文字内容中匹配多个待处理目录章节。
(3)将匹配成功的文字内容作为目标文字内容,并将目标文字内容对应的页码作为目标页码。
在文字内容中匹配待处理目录章节集合的方式可以按照页码确定的顺序进行遍历查找,并可以利用正则表达式进行匹配,将匹配到的文字内容作为目标文字内容,并将目标文字内容对应的页码作为目标页码。
在一种可能的实施方式中,计算机设备与存储服务器通信连接,前述步骤S201还可以包括以下详细的示例。
子步骤S201-5,将PDF和目录章节数据集合存储至存储服务器,并为目录章节数据集合配置唯一标识码。
在本申请实施例中,可以同时进行多个PDF目录的生成,不仅如此,生成PDF的设备和生成PDF目录的设备也可以不为同一设备。本申请实施例中可以提供与计算机设备通信连接的存储服务器作为不同PDF目录相关数据的存储设备。在此基础上,可以为每个目录章节数据集合配置唯一标识码。存储服务器可以是以数据库的形式存在。
相应的,前述子步骤S202可以通过以下详细的实施方式执行实施。
子步骤S202-1,利用超文本标记语言编写待处理网页页面。
子步骤S202-2,通过预设查询应用程序接口,从存储服务器中调用目录章节数据集合。
其中,预设查询应用程序接口配置有唯一标识码。
子步骤S202-3,根据目录章节和目录章节对应的页码生成包括目标目录的目录网页页面。
本申请实施例中,可以利用HTML(Hyper Text Markup Language,超文本标记语言)、CSS(Cascading Style Sheets,层叠样式表)、JavaScript语言(开发Web页面的脚本语言)编写目录的HTML页面(即待处理网页页面)。
可以利用预设查询应用程序接口去存储服务器中调用目录章节数据集合,应当理解的是,预设查询应用程序接口(Application Programming Interface,API)可以是预先利用Java编写的,该预设查询应用程序接口接收一个唯一标识码的参数,然后查询数据库,获取该唯一标识码对应的章节和页码的数据集合(即目录章节数据集合),然后将目录章节数据集合作为API的返回数据。
在获取到目录章节数据集合的基础上,便可以进行包括目标目录的目录网页页面的编写,至此已经实现了在代码层面上PDF目录的生成。
在一种可能的实施方式中,驱动网页应用配置有PDF转化命令,前述步骤S203可以通过一下详细的实施方式执行实施。
子步骤S203-1,驱动网页应用打开目录网页页面,并渲染目录网页页面。
子步骤S203-2,当判定目录网页页面渲染完成后,调用PDF转化命令将目录网页页面输出为目录PDF。
为了实现PDF的可视化,下面示例性地进行介绍:可以在JAVA中使用ChromeDriver工具库去驱动网页应用(例如,可以是Chrome浏览器)。然后打开前述目录网页页面,并进行渲染,渲染完成后可以执行Chrome DevTools Protocol(Chrome调试工具)的“Page.pringToPDF”命令(PDF转化命令),实现将目录网页页面输出为目录PDF。
在一种可能的实施方式中,前述子步骤S202-3可以通过以下详细的步骤执行实施。
(1)利用超文本标记语言编写渲染状态查询标签。
本申请实施例还提供一种判定目录网页页面渲染是否完成的示意,请参考以下步骤。
(1)查询渲染状态查询标签是否为渲染完成标签。
(2)当查询到渲染状态查询标签为渲染完成标签,则判定目录网页页面渲染完成。
(3)当未查询到渲染状态查询标签为渲染完成标签,则判定目录网页页面渲染未完成,并返回查询渲染状态查询标签是否为渲染完成标签的步骤,直至查询到渲染状态查询标签为渲染完成标签。
为了能够便捷地对目录网页页面的渲染情况进行确认,以将PDF目录输出,在编写目录网页页面的同时,可以利用超文本标记语言编写一个渲染状态查询标签,该渲染状态查询标签能够表征目录网页页面的渲染情况。在判定渲染完成后,便可以进行格式转化操作,否则重复进行渲染状态查询标签的查询。在本申请实施例的另一实施方式中,可以在目录网页页面渲染完毕后利用超文本标记语言编写一个渲染完成标签,若后续查询到该标签,则可以认为目录网页页面渲染完成,否则持续查询,直至查询到该渲染完成标签。
在一种可能的实施方式中,前述步骤S204可以通过下述示例实现。
子步骤S204-1,利用IText库将PDF和目录PDF合并,完成PDF的目录生成。
在本申请实施例中,最终可以利用IText库将PDF和目录PDF合并,由于通过上述放生成的PDF目录既不用依托于待处理的PDF的代码,也没有采取IText的方式编写,因此采用IText库将PDF和目录PDF合并不会出现格式问题。
通过上述方案,兼容了复杂样式和复杂图表的PDF内容生成方案,能更全面的满足业务需求,在此基础上能够针对已有的PDF去生成PDF目录,因此具有很好的兼容性,且不依赖PDF内容生成方案,是一个相对独立的过程,因此具有很好的耦合性。
本申请实施例提供一种PDF目录生成装置110,请结合参阅图2,应用于计算机设备,PDF目录生成装置110包括:
获取模块1101,用于获取待处理的PDF以及PDF对应的目录章节数据集合,目录章节数据集合包括目录章节和目录章节对应的页码;
构建模块1102,用于利用网页标记语言编写待处理网页页面,并根据目录章节数据集合和待处理网页页面构建目录网页页面,目录网页页面包括目录章节和目录章节对应的页码构成的目标目录。
转换模块1103,用于驱动网页应用打开目录网页页面,并调用网页应用将目录网页页面输出为目录PDF,目录PDF用于展示目标目录。
生成模块1104,用于将PDF和目录PDF合并,完成PDF的目录生成。
在一种可能的实施方式中,获取模块1101具体用于:
获取PDF对应的待处理目录章节集合;获取PDF包括的多个页码以及每个页码对应的文字内容;从文字内容中确定出与待处理目录章节集合匹配的目标文字内容,以及目标文字内容对应的目标页码;将目标文字内容作为目录章节、将目标文字内容对应的目标页码作为目录章节对应的页码,得到PDF对应的目录章节数据集合。
在一种可能的实施方式中,待处理目录章节集合包括多个待处理目录章节;获取模块1101进一步具体用于:
按多个页码的排列顺序遍历每个页码对应的文字内容;遍历多个待处理目录章节,根据正则表达式在每个页码对应的文字内容中匹配多个待处理目录章节;将匹配成功的文字内容作为目标文字内容,并将目标文字内容对应的页码作为目标页码。
在一种可能的实施方式中,计算机设备与存储服务器通信连接,获取模块1101具体用于:
将PDF和目录章节数据集合存储至存储服务器,并为目录章节数据集合配置唯一标识码。
构建模块1102具体用于:
利用超文本标记语言编写待处理网页页面;通过预设查询应用程序接口,从存储服务器中调用目录章节数据集合,预设查询应用程序接口配置有唯一标识码;根据目录章节和目录章节对应的页码生成包括目标目录的目录网页页面。
在一种可能的实施方式中,驱动网页应用配置有PDF转化命令,转换模块1103具体用于:
驱动网页应用打开目录网页页面,并渲染目录网页页面;当判定目录网页页面渲染完成后,调用PDF转化命令将目录网页页面输出为目录PDF。
在一种可能的实施方式中,构建模块1102进一步具体用于:
利用超文本标记语言编写渲染状态查询标签;
生成模块1104还用于:
查询渲染状态查询标签是否为渲染完成标签;当查询到渲染状态查询标签为渲染完成标签,则判定目录网页页面渲染完成;当未查询到渲染状态查询标签为渲染完成标签,则判定目录网页页面渲染未完成,并返回查询渲染状态查询标签是否为渲染完成标签的步骤,直至查询到渲染状态查询标签为渲染完成标签。
在一种可能的实施方式中,生成模块1104具体用于:
利用IText库将PDF和目录PDF合并,完成PDF的目录生成。
需要说明的是,前述PDF目录生成装置110的实现原理可以参考前述PDF目录生成方法的实现原理,在此不再赘述。应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块1101可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上获取模块1101的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
本申请实施例提供一种计算机设备100,计算机设备100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备100执行前述的PDF目录生成装置110。如图3所示,图3为本申请实施例提供的计算机设备100的结构框图。计算机设备100包括PDF目录生成装置110、存储器111、处理器112及通信单元113。
为实现数据的传输或交互,存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如,可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。PDF目录生成装置110包括至少一个可以软件或固件(firmware)的形式存储于存储器111中或固化在计算机设备100的操作系统(operating system,OS)中的软件功能模块。处理器112用于执行存储器111中存储的PDF目录生成装置110,例如PDF目录生成装置110所包括的软件功能模块及计算机程序等。
本申请实施例提供一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备执行前述的PDF目录生成方法。
综上所述,本申请公开了一种PDF目录生成方法、装置、计算机设备及可读存储介质,包括:获取待处理的PDF以及对应的目录章节数据集合,利用网页标记语言基于目录章节数据集合将待处理网页页面编写完成为目录网页页面,驱动网页应用打开该目录网页页面,并网页应用将目录网页页面输出为可以展示目标目录的目录PDF,再将PDF和目录PDF合并,以完成PDF的目录生成,相较于相关技术中PDF和PDF目录之间生成方式必须相同,且生成的PDF目录较为依赖原始PDF代码的问题,本申请提供的方案利用网页标记语言参与PDF目录的生成,提高了PDF目录的兼容性,降低了PDF目录和原始PDF代码之间的耦合性。
出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本申请局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本申请的原理及其实际应用,从而使本领域技术人员最佳地利用本申请,并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本申请局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本申请的原理及其实际应用,从而使本领域技术人员最佳地利用本申请,并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims (10)

1.一种PDF目录生成方法,其特征在于,应用于计算机设备,所述方法包括:
获取待处理的PDF以及所述PDF对应的目录章节数据集合,所述目录章节数据集合包括目录章节和所述目录章节对应的页码;
利用网页标记语言编写待处理网页页面,并根据所述目录章节数据集合和所述待处理网页页面构建目录网页页面,所述目录网页页面包括所述目录章节和所述目录章节对应的页码构成的目标目录;
驱动网页应用打开所述目录网页页面,并调用所述网页应用将所述目录网页页面输出为目录PDF,所述目录PDF用于展示所述目标目录;
将所述PDF和所述目录PDF合并,完成所述PDF的目录生成。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理的PDF以及所述PDF对应的目录章节数据集合,包括:
获取所述PDF对应的待处理目录章节集合;
获取所述PDF包括的多个页码以及每个所述页码对应的文字内容;
从文字内容中确定出与所述待处理目录章节集合匹配的目标文字内容,以及目标文字内容对应的目标页码;
将所述目标文字内容作为所述目录章节、将所述目标文字内容对应的目标页码作为所述目录章节对应的页码,得到所述PDF对应的目录章节数据集合。
3.根据权利要求2所述的方法,其特征在于,所述待处理目录章节集合包括多个待处理目录章节;
所述从文字内容中确定出与所述待处理目录章节集合匹配的目标文字内容,以及目标文字内容对应的目标页码,包括:
按所述多个页码的排列顺序遍历每个所述页码对应的文字内容;
遍历所述多个待处理目录章节,根据正则表达式在每个所述页码对应的文字内容中匹配所述多个待处理目录章节;
将匹配成功的文字内容作为所述目标文字内容,并将目标文字内容对应的页码作为所述目标页码。
4.根据权利要求1所述的方法,其特征在于,所述计算机设备与存储服务器通信连接,所述获取待处理的PDF以及所述PDF对应的目录章节数据集合,包括:
将所述PDF和所述目录章节数据集合存储至所述存储服务器,并为所述目录章节数据集合配置唯一标识码;
所述利用网页标记语言编写待处理网页页面,并根据所述目录章节数据集合和所述待处理网页页面构建目录网页页面,包括:
利用超文本标记语言编写待处理网页页面;
通过预设查询应用程序接口,从所述存储服务器中调用所述目录章节数据集合,所述预设查询应用程序接口配置有所述唯一标识码;
根据所述目录章节和所述目录章节对应的页码生成包括所述目标目录的所述目录网页页面。
5.根据权利要求4所述的方法,其特征在于,所述驱动网页应用配置有PDF转化命令,所述驱动网页应用打开所述目录网页页面,并调用所述网页应用将所述目录网页页面输出为目录PDF,包括:
驱动网页应用打开所述目录网页页面,并渲染所述目录网页页面;
当判定所述目录网页页面渲染完成后,调用所述PDF转化命令将所述目录网页页面输出为所述目录PDF。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目录章节和所述目录章节对应的页码生成包括所述目标目录的所述目录网页页面,还包括:
利用超文本标记语言编写渲染状态查询标签;
判定所述目录网页页面渲染是否完成的步骤,包括:
查询所述渲染状态查询标签是否为渲染完成标签;
当查询到所述渲染状态查询标签为渲染完成标签,则判定所述目录网页页面渲染完成;
当未查询到所述渲染状态查询标签为渲染完成标签,则判定所述目录网页页面渲染未完成,并返回所述查询所述渲染状态查询标签是否为渲染完成标签的步骤,直至查询到所述渲染状态查询标签为渲染完成标签。
7.根据权利要求1所述的方法,其特征在于,所述将所述PDF和所述目录PDF合并,完成所述PDF的目录生成,包括:
利用IText库将所述PDF和所述目录PDF合并,完成所述PDF的目录生成。
8.一种PDF目录生成装置,其特征在于,应用于计算机设备,所述装置包括:
获取模块,用于获取待处理的PDF以及所述PDF对应的目录章节数据集合,所述目录章节数据集合包括目录章节和所述目录章节对应的页码;
构建模块,用于利用网页标记语言编写待处理网页页面,并根据所述目录章节数据集合和所述待处理网页页面构建目录网页页面,所述目录网页页面包括所述目录章节和所述目录章节对应的页码构成的目标目录;
转换模块,用于驱动网页应用打开所述目录网页页面,并调用所述网页应用将所述目录网页页面输出为目录PDF,所述目录PDF用于展示所述目标目录;
生成模块,用于将所述PDF和所述目录PDF合并,完成所述PDF的目录生成。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述计算机设备执行权利要求1-7中任意一项所述的PDF目录生成方法。
10.一种可读存储介质,其特征在于,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-7中任意一项所述的PDF目录生成方法。
CN202110638300.2A 2021-06-08 2021-06-08 一种pdf目录生成方法、装置、计算机设备及可读存储介质 Pending CN113408248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110638300.2A CN113408248A (zh) 2021-06-08 2021-06-08 一种pdf目录生成方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110638300.2A CN113408248A (zh) 2021-06-08 2021-06-08 一种pdf目录生成方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113408248A true CN113408248A (zh) 2021-09-17

Family

ID=77677219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110638300.2A Pending CN113408248A (zh) 2021-06-08 2021-06-08 一种pdf目录生成方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113408248A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN103823835A (zh) * 2013-12-03 2014-05-28 小米科技有限责任公司 一种电子书目录的处理方法、装置及终端设备
KR20170096347A (ko) * 2016-02-16 2017-08-24 주식회사 크레넷 인쇄용 카탈로그(pdf 문서)의 그림과 텍스트의 위치정보가 보존된 기존 레이아웃 그대로의 html5 기반 전자카탈로그를 표시하는 절차 및 방법
CN109558123A (zh) * 2018-12-03 2019-04-02 掌阅科技股份有限公司 网页转化电子书的方法、电子设备、存储介质
CN110175026A (zh) * 2019-05-31 2019-08-27 长沙米拓信息技术有限公司 一种网页可视化编辑方法、装置及存储介质
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111753500A (zh) * 2020-07-07 2020-10-09 江苏中威科技软件系统有限公司 版式化后的电子表单与ofd合并展现及目录生成的方法
CN111881650A (zh) * 2020-07-20 2020-11-03 北京百度网讯科技有限公司 一种pdf文档生成方法、装置以及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN103823835A (zh) * 2013-12-03 2014-05-28 小米科技有限责任公司 一种电子书目录的处理方法、装置及终端设备
KR20170096347A (ko) * 2016-02-16 2017-08-24 주식회사 크레넷 인쇄용 카탈로그(pdf 문서)의 그림과 텍스트의 위치정보가 보존된 기존 레이아웃 그대로의 html5 기반 전자카탈로그를 표시하는 절차 및 방법
CN109558123A (zh) * 2018-12-03 2019-04-02 掌阅科技股份有限公司 网页转化电子书的方法、电子设备、存储介质
CN110175026A (zh) * 2019-05-31 2019-08-27 长沙米拓信息技术有限公司 一种网页可视化编辑方法、装置及存储介质
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111753500A (zh) * 2020-07-07 2020-10-09 江苏中威科技软件系统有限公司 版式化后的电子表单与ofd合并展现及目录生成的方法
CN111881650A (zh) * 2020-07-20 2020-11-03 北京百度网讯科技有限公司 一种pdf文档生成方法、装置以及电子设备

Similar Documents

Publication Publication Date Title
CN104346153A (zh) 用于翻译应用程序的文本信息的方法和系统
US9263045B2 (en) Multi-mode text input
WO2016177341A1 (zh) 接口调用方法、装置及终端
CN105183760B (zh) 一种网页组件加载方法和装置
CN102346780B (zh) 网页地址的获取方法和获取装置
JP3922372B2 (ja) 構造化文書処理装置、およびプログラム
EP3444725A1 (en) Man-machine interaction method and device therefor
CN110941779B (zh) 加载页面的方法、装置、存储介质及电子设备
CN105589959A (zh) 表单处理方法和表单系统
CN103970751A (zh) 多国语言网页转换系统及方法
US20190012052A1 (en) Configuration Constraints in Globalization of Features
WO2020233023A1 (zh) 基于分层技术实现的psd文件编辑方法、电子设备
CN111831384A (zh) 语言切换方法和装置、设备及存储介质
CN110109981B (zh) 工作队列的信息展示方法、装置、计算机设备和存储介质
CN113032078A (zh) 页面展示方法、装置、电子设备和计算机可读存储介质
CN113408248A (zh) 一种pdf目录生成方法、装置、计算机设备及可读存储介质
CN106681852A (zh) 一种浏览器兼容性的调整方法及装置
CN115065945A (zh) 短信链接生成方法、装置、电子设备及存储介质
CN110471708B (zh) 基于可重用组件的配置项获取的方法及装置
CN114116712A (zh) 扩展字段处理方法、装置、电子设备及存储介质
US9942298B2 (en) Dynamic help pages using linked data
CN112307736A (zh) 一种应用项目创建方法、装置、设备及存储介质
CN113961637B (zh) 一种基于数据库的数据融合方法、系统和电子设备
CN114003489B (zh) 一种前端代码文件检测方法、装置及电子设备和存储介质
CN112286813B (zh) 一种用例关键字的自动化生成系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination