CN112597422A

CN112597422A - 一种pdf文件分割方法和网页中pdf文件加载方法

Info

Publication number: CN112597422A
Application number: CN202011619052.9A
Authority: CN
Inventors: 包伟
Original assignee: Shenzhen Sekorm Component Network Co Ltd
Current assignee: Shenzhen Sekorm Component Network Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-02
Also published as: US11928165B2; EP4024235A1; JP2022104893A; US20220207090A1

Abstract

本发明涉及一种PDF文件分割方法和网页中PDF文件加载方法。该PDF文件分割方法包括：S101、检测PDF文件是否有原始目录结构；S102、若有，则按照原始目录结构将PDF文件分割为多个PDF子文件；S103、若无，则按照PDF文件的文件内容和PDF文件对应的关联词库将PDF文件分割为多个PDF子文件。本发明将PDF文件分割为多个PDF子文件，方便PDF文件的在线浏览、下载、检索等操作，提高用户使用体验。

Description

一种PDF文件分割方法和网页中PDF文件加载方法

技术领域

本发明涉及PDF文件领域，更具体地说，涉及一种PDF文件分割方法和网页中PDF文件加载方法。

背景技术

PDF(Portable Document Format)文件是一种常见的文件格式，广泛应用于工作生活中。一些行业领域中使用的PDF文件内容较多，例如技术说明书、使用说明书等，这种冗长的文档不利于用户的在线浏览、下载、检索等，例如用户在线阅读时需要等待整个PDF文件加载结束才能阅读，用户在下载时只能下载整个PDF文件，用户使用体验差。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种PDF文件分割方法和网页中PDF文件加载方法。

本发明解决其技术问题所采用的技术方案是：构造一种PDF文件分割方法，包括：

S101、检测PDF文件是否有原始目录结构；

S102、若有，则按照所述原始目录结构将所述PDF文件分割为多个PDF子文件；

S103、若无，则按照所述PDF文件的文件内容和所述PDF文件对应的关联词库将所述PDF文件分割为多个PDF子文件。

进一步，在本发明所述的PDF文件分割方法中，在所述步骤S102之后还包括：

S1041、判断所述PDF子文件的页码长度是否小于第一预设页码长度；

S1042、若是，则按照所述PDF子文件对应目录级别的上一级目录重新划分所述PDF文件。

S1051、判断所述PDF子文件的页码长度是否大于第二预设页码长度；

S1052、若是，则按照所述PDF子文件的文件内容和所述PDF子文件对应的关联词库将所述PDF子文件分割为多个PDF二级子文件。

进一步，在本发明所述的PDF文件分割方法中，在分割得到所述PDF子文件或所述PDF二级子文件后还包括：

所述PDF子文件和所述PDF二级子文件按照其在所述PDF文件中的位置顺序依次排列。

在每个所述PDF子文件和每个所述PDF二级子文件的文件头和文件尾设置跳转标签，所述跳转标签用于跳转到相邻的所述PDF子文件或所述PDF二级子文件。

设置每个所述PDF子文件和每个所述PDF二级子文件对应的索引标签，由所有索引标签组成所述PDF子文件的所有所述PDF子文件和所述PDF二级子文件对应的索引目录。

进一步，在本发明所述的PDF文件分割方法中，所述设置每个所述PDF子文件和每个所述PDF二级子文件对应的索引标签包括：

根据每个所述PDF子文件或所述PDF二级子文件的文件内容生成对应的索引标签。

进一步，在本发明所述的PDF文件分割方法中，所述步骤S3中按照所述PDF文件的文件内容和所述PDF文件对应的关联词库将所述PDF文件分割为多个PDF子文件包括：

由所述PDF文件的文件内容和所述PDF文件对应的关联词库评估所述PDF文件中段落之间的关联度和相似度，将所述关联度和相似度达到预设标准的段落作为一个所述PDF子文件。

另外，本发明还提供一种网页中PDF文件加载方法，包括：

S201、网页服务器按照如上述的PDF文件分割方法分割PDF文件，得到多个PDF子文件和PDF二级子文件，设置每个所述PDF子文件和所述PDF二级子文件对应的网络地址；

S202、所述网页服务器接收智能终端发送的用于访问所述PDF文件的访问请求，所述网页服务器下发所述访问请求对应的PDF文件中的一个所述PDF子文件或一个所述PDF二级子文件；

S203、所述智能终端接收并显示所述PDF子文件或所述PDF二级子文件；

S204、所述网页服务器接收智能终端发送的连续访问请求，所述网页服务器下发所述PDF子文件或所述PDF二级子文件相邻排列的所述PDF子文件或所述PDF二级子文件；

S205、所述智能终端接收并显示所述PDF子文件或所述PDF二级子文件；

S206、重复执行所述步骤S204和所述步骤S205，实现所述PDF文件中PDF子文件和PDF二级子文件的连续显示。

进一步，本发明的所述的网页中PDF文件加载方法还包括：

S207、所述网页服务器接收所述智能终端发送的下载请求，所述网页服务器下发所述下载请求对应的PDF文件中至少一个所述PDF子文件或至少一个所述PDF二级子文件；

S208、所述智能终端接收并保存所述PDF子文件或所述PDF二级子文件。

实施本发明的一种PDF文件分割方法和网页中PDF文件加载方法，具有以下有益效果：本发明将PDF文件分割为多个PDF子文件，方便PDF文件的在线浏览、下载、检索等操作，提高用户使用体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是一实施例提供的一种PDF文件分割方法的流程图；

图2是一实施例提供的一种网页中PDF文件加载方法的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

在一优选实施例中，参考图1，本实施例的PDF文件分割方法包括下述步骤：

S101、检测PDF文件是否有原始目录结构。

具体的，对于内容较多的PDF文件，在文件开头往往设置有原始目录结构，原始目录结构用于文件内容索引，以方便用户快速找到所需内容所在的位置；当然有些PDF文件没有原始目录结构。在处理PDF文件时，首先检测PDF文件是否有原始目录结构，因原始目录结构通常具有固定格式，可使用目录识别算法对PDF文件进行识别。原始目录结构包括一级目录、二级目录、三级目录等，使用目录识别算法识别出原始目录结构的每一级目录。

S102、通过检测，若PDF文件有原始目录结构，则按照原始目录结构将PDF文件分割为多个PDF子文件。

具体的，原始目录结构包括一级目录、二级目录、三级目录等，每一级目录在PDF文件正文中都有对应的标号和标题，识别出PDF文件内容中与原始目录结构的每一级目录对应的标号和标题，将PDF文件内容中与原始目录结构的每一级目录对应的标号和标题所在位置作为分割点，将PDF文件分割为多个PDF子文件。可以理解，分割点可能位于PDF文件中某页面的任意位置，并非以整页内容为单位进行分割。作为选择，可选择原始目录结构中的某一级目录作为分割点，例如以一级目录作为分隔点，即以一级目录在PDF文件内容中标号和标题所在位置作为分割点；又例如以二级目录作为分隔点，即以二级目录在PDF文件内容中标号和标题所在位置作为分割点。优选地，以原始目录的最小一级目录作为分割点，即以原始目录的最小一级目录在PDF文件内容中标号和标题所在位置作为分割点。可以理解的，分隔得到的PDF子文件依然符合PDF文件格式要求，依然是PDF文件。

S103、通过检测，若PDF文件没有原始目录结构，则按照PDF文件的文件内容和PDF文件对应的关联词库将PDF文件分割为多个PDF子文件。

具体的，若PDF文件没有原始目录结构，则查找该PDF文件对应的关联词库。作为选择，查找该PDF文件对应的关联词库时，可通过PDF文件所属技术领域来查找该领域的关联词库，还可以通过PDF文件的文件内容查找所述技术领域等，技术领域包括多个层级，所选择的技术领域越小越好。该关联词汇需要预先设置，工作人员通过经验或大数据筛选得到每个技术领域的关键词汇，以及词汇之间的关系等，最后得到每个技术领域对应的关联词库。进一步，按照PDF文件的文件内容和PDF文件对应的关联词库将PDF文件分割为多个PDF子文件，也就是说，由PDF文件的文件内容和PDF文件对应的关联词库评估PDF文件中段落之间的关联度和相似度，将关联度和相似度达到预设标准的段落作为一个PDF子文件。相邻段落之间的关联度和相似度达到预设标准，说明相邻段落之间在描述同一个主题或近似内容，则将这些段落划分为一个PDF子文件。例如，相邻段落中多次出现相同的词语，则认为相邻段落在描述同一个主题或近似内容。

本实施例将PDF文件分割为多个PDF子文件，方便PDF文件的在线浏览、下载、检索等操作，提高用户使用体验。

在一些实施例中，在PDF文件分割方法中步骤S102之后还包括步骤：

S1041、判断PDF子文件的页码长度是否小于第一预设页码长度。具体的，按照原始目录结构分割得到的PDF子文件，可能存在页码过少的PDF子文件，所以在按照原始目录结构分割得到多个PDF子文件后，需判断PDF子文件的页码长度是否小于第一预设页码长度。如果PDF子文件的页码长度小于第一预设页码长度，则按照PDF子文件对应目录级别的上一级目录重新划分PDF文件；如果PDF子文件的页码长度不小于第一预设页码长度，则不需要重新划分。

S1042、若PDF子文件的页码长度小于第一预设页码长度，则按照PDF子文件对应目录级别的上一级目录重新划分PDF文件，也就是说，按照PDF子文件当前所在目录的上一级目录重新划分PDF文件，以使过小的PDF子文件被划分到上一级目录对应的PDF子文件中。

本实施例将过小的PDF子文件进行重新划分，将其划分到上一级目录对应的PDF子文件中，以使PDF子文件的长度处于合理范围内。

S1051、判断PDF子文件的页码长度是否大于第二预设页码长度。具体的，按照原始目录结构分割得到的PDF子文件，依然可能存在页码过多的PDF子文件，所以在按照原始目录结构分割得到多个PDF子文件后，需判断PDF子文件的页码长度是否大于第二预设页码长度。如果PDF子文件的页码长度大于第二预设页码长度，则按照PDF子文件的文件内容和PDF子文件对应的关联词库将PDF子文件分割为多个PDF二级子文件。如果PDF子文件的页码长度不大于第二预设页码长度，则不需要进一步处理。

S1052、若PDF子文件的页码长度大于第二预设页码长度，则按照PDF子文件的文件内容和PDF子文件对应的关联词库将PDF子文件分割为多个PDF二级子文件，也就是说，

由PDF子文件的文件内容和PDF子文件对应的关联词库评估PDF子文件中段落之间的关联度和相似度，将关联度和相似度达到预设标准的段落作为一个PDF二级子文件。相邻段落之间的关联度和相似度达到预设标准，说明相邻段落之间在描述同一个主题或近似内容，则将这些段落划分为一个PDF子文件。例如，相邻段落中多次出现相同的词语，则认为相邻段落在描述同一个主题或近似内容。

作为选择，对于PDF二级子文件作为PDF子文件，重复执行步骤S1051和步骤S1052，直至划分所得文件的长度处于合理范围内。

本实施例将过大的PDF子文件按照文件内容和PDF子文件对应的关联词库进行重新划分，避免PDF子文件过长，以使PDF子文件的长度处于合理范围内。

在一些实施例中，该PDF文件分割方法中在分割得到PDF子文件或PDF二级子文件后还包括步骤：PDF子文件和PDF二级子文件按照其在PDF文件中的位置顺序依次排列，也就是说，PDF子文件和PDF二级子文件排列顺序保持其在PDF文件中的位置。用户在智能终端上浏览分割后的PDF子文件和PDF二级子文件时，并未意识到PDF文件进行分割。

在一些实施例中，该PDF文件分割方法中在分割得到PDF子文件或PDF二级子文件后还包括步骤：在每个PDF子文件和每个PDF二级子文件的文件头和文件尾设置跳转标签，跳转标签用于跳转到相邻的PDF子文件或PDF二级子文件。跳转标签可设置为自动跳转标签或手动跳转标签，其中，自动跳转标签下可自动跳转到相邻的PDF子文件或PDF二级子文件，即用户在阅读到当前PDF子文件或PDF二级子文件的跳转标签位置时，自动跳转到相邻的PDF子文件或PDF二级子文件。手动跳转标签需要用户进行操作，即用户在阅读到当前PDF子文件或PDF二级子文件的跳转标签位置时，需要手动点击或滑动该手动跳转标签，在用户操作后才会跳转到相邻的PDF子文件或PDF二级子文件。若为自动跳转标签，则可隐藏不显示；若为手动跳转标签，需要显示。本实施例通过设置跳转标签实现分割后相邻PDF子文件或PDF二级子文件的跳转，方便用户阅读。

在一些实施例中，该PDF文件分割方法中在分割得到PDF子文件或PDF二级子文件后还包括步骤：设置每个PDF子文件和每个PDF二级子文件对应的索引标签，由所有索引标签组成PDF子文件的所有PDF子文件和PDF二级子文件对应的索引目录。也就是说，设置每个PDF子文件和每个PDF二级子文件对应的索引标签包括：根据每个PDF子文件或PDF二级子文件的文件内容生成对应的索引标签，该索引标签不同于PDF文件的原始目录结构，也不同于PDF文件的页码标记。本实施例为分割后的PDF子文件和PDF二级子文件设置索引标签和索引目录，方便用户查询。

在一优选实施例中，参考图2，本实施例的网页中PDF文件加载方法包括下述步骤：

S201、网页服务器按照上述实施例的PDF文件分割方法分割PDF文件，得到多个PDF子文件和PDF二级子文件，设置每个PDF子文件和PDF二级子文件对应的网络地址。

S202、网页服务器接收智能终端发送的用于访问PDF文件的访问请求，网页服务器下发访问请求对应的PDF文件中的一个PDF子文件或一个PDF二级子文件。智能终端发送的访问请求可以访问PDF文件中任意一个PDF子文件或任意一个PDF二级子文件，也就是说，智能终端发送的访问请求可以访问PDF文件中排序第一的PDF子文件或PDF二级子文件，也可能访问PDF文件中排序在中间的PDF子文件或PDF二级子文件，也可能访问PDF文件中排序在最后的PDF子文件或PDF二级子文件。作为选择，智能终端可选用智能手机、平板电脑、笔记本电脑、台式电脑等，智能终端上安装有用于访问网页服务器的应用程序或浏览器。

S203、智能终端接收并显示PDF子文件或PDF二级子文件。

S204、网页服务器接收智能终端发送的连续访问请求，网页服务器下发PDF子文件或PDF二级子文件相邻排列的PDF子文件或PDF二级子文件。

S205、智能终端接收并显示PDF子文件或PDF二级子文件。

S206、重复执行步骤S204和步骤S205，实现PDF文件中PDF子文件和PDF二级子文件的连续显示。优选地，在PDF文件的所有PDF子文件和PDF二级子文件全部显示后，结束流程。

本实施例将PDF文件分割为多个PDF子文件，用户访问时仅需要加载PDF子文件或PDF二级子文件，加载速度快，提高用户使用体验。

在一些实施例中，该网页中PDF文件加载方法还包括步骤：

S207、网页服务器接收智能终端发送的下载请求，网页服务器下发下载请求对应的PDF文件中至少一个PDF子文件或至少一个PDF二级子文件。

S208、智能终端接收并保存PDF子文件或PDF二级子文件。

本实施例将PDF文件分割为多个PDF子文件，用户在下载PDF文件时，可仅下载自己需要的部分文件，提高用户使用体验。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施，并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰，均应属于本发明权利要求的涵盖范围。

Claims

1.一种PDF文件分割方法，其特征在于，包括：

S101、检测PDF文件是否有原始目录结构；

2.根据权利要求1所述的PDF文件分割方法，其特征在于，在所述步骤S102之后还包括：

3.根据权利要求1所述的PDF文件分割方法，其特征在于，在所述步骤S102之后还包括：

4.根据权利要求3所述的PDF文件分割方法，其特征在于，在分割得到所述PDF子文件或所述PDF二级子文件后还包括：

5.根据权利要求4所述的PDF文件分割方法，其特征在于，在分割得到所述PDF子文件或所述PDF二级子文件后还包括：

6.根据权利要求4所述的PDF文件分割方法，其特征在于，在分割得到所述PDF子文件或所述PDF二级子文件后还包括：

7.根据权利要求6所述的PDF文件分割方法，其特征在于，所述设置每个所述PDF子文件和每个所述PDF二级子文件对应的索引标签包括：

8.根据权利要求1所述的PDF文件分割方法，其特征在于，所述步骤S3中按照所述PDF文件的文件内容和所述PDF文件对应的关联词库将所述PDF文件分割为多个PDF子文件包括：

9.一种网页中PDF文件加载方法，其特征在于，包括：

S201、网页服务器按照如权利要求1至8任一项所述的PDF文件分割方法分割PDF文件，得到多个PDF子文件和PDF二级子文件，设置每个所述PDF子文件和所述PDF二级子文件对应的网络地址；

10.根据权利要求9所述的网页中PDF文件加载方法，其特征在于，还包括：