CN112597422A - 一种pdf文件分割方法和网页中pdf文件加载方法 - Google Patents

一种pdf文件分割方法和网页中pdf文件加载方法 Download PDF

Info

Publication number
CN112597422A
CN112597422A CN202011619052.9A CN202011619052A CN112597422A CN 112597422 A CN112597422 A CN 112597422A CN 202011619052 A CN202011619052 A CN 202011619052A CN 112597422 A CN112597422 A CN 112597422A
Authority
CN
China
Prior art keywords
pdf
subfile
file
subfiles
pdf file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011619052.9A
Other languages
English (en)
Inventor
包伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sekorm Component Network Co Ltd
Original Assignee
Shenzhen Sekorm Component Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sekorm Component Network Co Ltd filed Critical Shenzhen Sekorm Component Network Co Ltd
Priority to CN202011619052.9A priority Critical patent/CN112597422A/zh
Publication of CN112597422A publication Critical patent/CN112597422A/zh
Priority to JP2021209623A priority patent/JP2022104893A/ja
Priority to EP21217785.1A priority patent/EP4024235A1/en
Priority to US17/563,068 priority patent/US11928165B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明涉及一种PDF文件分割方法和网页中PDF文件加载方法。该PDF文件分割方法包括:S101、检测PDF文件是否有原始目录结构;S102、若有,则按照原始目录结构将PDF文件分割为多个PDF子文件;S103、若无,则按照PDF文件的文件内容和PDF文件对应的关联词库将PDF文件分割为多个PDF子文件。本发明将PDF文件分割为多个PDF子文件,方便PDF文件的在线浏览、下载、检索等操作,提高用户使用体验。

Description

一种PDF文件分割方法和网页中PDF文件加载方法
技术领域
本发明涉及PDF文件领域,更具体地说,涉及一种PDF文件分割方法和网页中PDF文件加载方法。
背景技术
PDF(Portable Document Format)文件是一种常见的文件格式,广泛应用于工作生活中。一些行业领域中使用的PDF文件内容较多,例如技术说明书、使用说明书等,这种冗长的文档不利于用户的在线浏览、下载、检索等,例如用户在线阅读时需要等待整个PDF文件加载结束才能阅读,用户在下载时只能下载整个PDF文件,用户使用体验差。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种PDF文件分割方法和网页中PDF文件加载方法。
本发明解决其技术问题所采用的技术方案是:构造一种PDF文件分割方法,包括:
S101、检测PDF文件是否有原始目录结构;
S102、若有,则按照所述原始目录结构将所述PDF文件分割为多个PDF子文件;
S103、若无,则按照所述PDF文件的文件内容和所述PDF文件对应的关联词库将所述PDF文件分割为多个PDF子文件。
进一步,在本发明所述的PDF文件分割方法中,在所述步骤S102之后还包括:
S1041、判断所述PDF子文件的页码长度是否小于第一预设页码长度;
S1042、若是,则按照所述PDF子文件对应目录级别的上一级目录重新划分所述PDF文件。
进一步,在本发明所述的PDF文件分割方法中,在所述步骤S102之后还包括:
S1051、判断所述PDF子文件的页码长度是否大于第二预设页码长度;
S1052、若是,则按照所述PDF子文件的文件内容和所述PDF子文件对应的关联词库将所述PDF子文件分割为多个PDF二级子文件。
进一步,在本发明所述的PDF文件分割方法中,在分割得到所述PDF子文件或所述PDF二级子文件后还包括:
所述PDF子文件和所述PDF二级子文件按照其在所述PDF文件中的位置顺序依次排列。
进一步,在本发明所述的PDF文件分割方法中,在分割得到所述PDF子文件或所述PDF二级子文件后还包括:
在每个所述PDF子文件和每个所述PDF二级子文件的文件头和文件尾设置跳转标签,所述跳转标签用于跳转到相邻的所述PDF子文件或所述PDF二级子文件。
进一步,在本发明所述的PDF文件分割方法中,在分割得到所述PDF子文件或所述PDF二级子文件后还包括:
设置每个所述PDF子文件和每个所述PDF二级子文件对应的索引标签,由所有索引标签组成所述PDF子文件的所有所述PDF子文件和所述PDF二级子文件对应的索引目录。
进一步,在本发明所述的PDF文件分割方法中,所述设置每个所述PDF子文件和每个所述PDF二级子文件对应的索引标签包括:
根据每个所述PDF子文件或所述PDF二级子文件的文件内容生成对应的索引标签。
进一步,在本发明所述的PDF文件分割方法中,所述步骤S3中按照所述PDF文件的文件内容和所述PDF文件对应的关联词库将所述PDF文件分割为多个PDF子文件包括:
由所述PDF文件的文件内容和所述PDF文件对应的关联词库评估所述PDF文件中段落之间的关联度和相似度,将所述关联度和相似度达到预设标准的段落作为一个所述PDF子文件。
另外,本发明还提供一种网页中PDF文件加载方法,包括:
S201、网页服务器按照如上述的PDF文件分割方法分割PDF文件,得到多个PDF子文件和PDF二级子文件,设置每个所述PDF子文件和所述PDF二级子文件对应的网络地址;
S202、所述网页服务器接收智能终端发送的用于访问所述PDF文件的访问请求,所述网页服务器下发所述访问请求对应的PDF文件中的一个所述PDF子文件或一个所述PDF二级子文件;
S203、所述智能终端接收并显示所述PDF子文件或所述PDF二级子文件;
S204、所述网页服务器接收智能终端发送的连续访问请求,所述网页服务器下发所述PDF子文件或所述PDF二级子文件相邻排列的所述PDF子文件或所述PDF二级子文件;
S205、所述智能终端接收并显示所述PDF子文件或所述PDF二级子文件;
S206、重复执行所述步骤S204和所述步骤S205,实现所述PDF文件中PDF子文件和PDF二级子文件的连续显示。
进一步,本发明的所述的网页中PDF文件加载方法还包括:
S207、所述网页服务器接收所述智能终端发送的下载请求,所述网页服务器下发所述下载请求对应的PDF文件中至少一个所述PDF子文件或至少一个所述PDF二级子文件;
S208、所述智能终端接收并保存所述PDF子文件或所述PDF二级子文件。
实施本发明的一种PDF文件分割方法和网页中PDF文件加载方法,具有以下有益效果:本发明将PDF文件分割为多个PDF子文件,方便PDF文件的在线浏览、下载、检索等操作,提高用户使用体验。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是一实施例提供的一种PDF文件分割方法的流程图;
图2是一实施例提供的一种网页中PDF文件加载方法的流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
在一优选实施例中,参考图1,本实施例的PDF文件分割方法包括下述步骤:
S101、检测PDF文件是否有原始目录结构。
具体的,对于内容较多的PDF文件,在文件开头往往设置有原始目录结构,原始目录结构用于文件内容索引,以方便用户快速找到所需内容所在的位置;当然有些PDF文件没有原始目录结构。在处理PDF文件时,首先检测PDF文件是否有原始目录结构,因原始目录结构通常具有固定格式,可使用目录识别算法对PDF文件进行识别。原始目录结构包括一级目录、二级目录、三级目录等,使用目录识别算法识别出原始目录结构的每一级目录。
S102、通过检测,若PDF文件有原始目录结构,则按照原始目录结构将PDF文件分割为多个PDF子文件。
具体的,原始目录结构包括一级目录、二级目录、三级目录等,每一级目录在PDF文件正文中都有对应的标号和标题,识别出PDF文件内容中与原始目录结构的每一级目录对应的标号和标题,将PDF文件内容中与原始目录结构的每一级目录对应的标号和标题所在位置作为分割点,将PDF文件分割为多个PDF子文件。可以理解,分割点可能位于PDF文件中某页面的任意位置,并非以整页内容为单位进行分割。作为选择,可选择原始目录结构中的某一级目录作为分割点,例如以一级目录作为分隔点,即以一级目录在PDF文件内容中标号和标题所在位置作为分割点;又例如以二级目录作为分隔点,即以二级目录在PDF文件内容中标号和标题所在位置作为分割点。优选地,以原始目录的最小一级目录作为分割点,即以原始目录的最小一级目录在PDF文件内容中标号和标题所在位置作为分割点。可以理解的,分隔得到的PDF子文件依然符合PDF文件格式要求,依然是PDF文件。
S103、通过检测,若PDF文件没有原始目录结构,则按照PDF文件的文件内容和PDF文件对应的关联词库将PDF文件分割为多个PDF子文件。
具体的,若PDF文件没有原始目录结构,则查找该PDF文件对应的关联词库。作为选择,查找该PDF文件对应的关联词库时,可通过PDF文件所属技术领域来查找该领域的关联词库,还可以通过PDF文件的文件内容查找所述技术领域等,技术领域包括多个层级,所选择的技术领域越小越好。该关联词汇需要预先设置,工作人员通过经验或大数据筛选得到每个技术领域的关键词汇,以及词汇之间的关系等,最后得到每个技术领域对应的关联词库。进一步,按照PDF文件的文件内容和PDF文件对应的关联词库将PDF文件分割为多个PDF子文件,也就是说,由PDF文件的文件内容和PDF文件对应的关联词库评估PDF文件中段落之间的关联度和相似度,将关联度和相似度达到预设标准的段落作为一个PDF子文件。相邻段落之间的关联度和相似度达到预设标准,说明相邻段落之间在描述同一个主题或近似内容,则将这些段落划分为一个PDF子文件。例如,相邻段落中多次出现相同的词语,则认为相邻段落在描述同一个主题或近似内容。
本实施例将PDF文件分割为多个PDF子文件,方便PDF文件的在线浏览、下载、检索等操作,提高用户使用体验。
在一些实施例中,在PDF文件分割方法中步骤S102之后还包括步骤:
S1041、判断PDF子文件的页码长度是否小于第一预设页码长度。具体的,按照原始目录结构分割得到的PDF子文件,可能存在页码过少的PDF子文件,所以在按照原始目录结构分割得到多个PDF子文件后,需判断PDF子文件的页码长度是否小于第一预设页码长度。如果PDF子文件的页码长度小于第一预设页码长度,则按照PDF子文件对应目录级别的上一级目录重新划分PDF文件;如果PDF子文件的页码长度不小于第一预设页码长度,则不需要重新划分。
S1042、若PDF子文件的页码长度小于第一预设页码长度,则按照PDF子文件对应目录级别的上一级目录重新划分PDF文件,也就是说,按照PDF子文件当前所在目录的上一级目录重新划分PDF文件,以使过小的PDF子文件被划分到上一级目录对应的PDF子文件中。
本实施例将过小的PDF子文件进行重新划分,将其划分到上一级目录对应的PDF子文件中,以使PDF子文件的长度处于合理范围内。
在一些实施例中,在PDF文件分割方法中步骤S102之后还包括步骤:
S1051、判断PDF子文件的页码长度是否大于第二预设页码长度。具体的,按照原始目录结构分割得到的PDF子文件,依然可能存在页码过多的PDF子文件,所以在按照原始目录结构分割得到多个PDF子文件后,需判断PDF子文件的页码长度是否大于第二预设页码长度。如果PDF子文件的页码长度大于第二预设页码长度,则按照PDF子文件的文件内容和PDF子文件对应的关联词库将PDF子文件分割为多个PDF二级子文件。如果PDF子文件的页码长度不大于第二预设页码长度,则不需要进一步处理。
S1052、若PDF子文件的页码长度大于第二预设页码长度,则按照PDF子文件的文件内容和PDF子文件对应的关联词库将PDF子文件分割为多个PDF二级子文件,也就是说,
由PDF子文件的文件内容和PDF子文件对应的关联词库评估PDF子文件中段落之间的关联度和相似度,将关联度和相似度达到预设标准的段落作为一个PDF二级子文件。相邻段落之间的关联度和相似度达到预设标准,说明相邻段落之间在描述同一个主题或近似内容,则将这些段落划分为一个PDF子文件。例如,相邻段落中多次出现相同的词语,则认为相邻段落在描述同一个主题或近似内容。
作为选择,对于PDF二级子文件作为PDF子文件,重复执行步骤S1051和步骤S1052,直至划分所得文件的长度处于合理范围内。
本实施例将过大的PDF子文件按照文件内容和PDF子文件对应的关联词库进行重新划分,避免PDF子文件过长,以使PDF子文件的长度处于合理范围内。
在一些实施例中,该PDF文件分割方法中在分割得到PDF子文件或PDF二级子文件后还包括步骤:PDF子文件和PDF二级子文件按照其在PDF文件中的位置顺序依次排列,也就是说,PDF子文件和PDF二级子文件排列顺序保持其在PDF文件中的位置。用户在智能终端上浏览分割后的PDF子文件和PDF二级子文件时,并未意识到PDF文件进行分割。
在一些实施例中,该PDF文件分割方法中在分割得到PDF子文件或PDF二级子文件后还包括步骤:在每个PDF子文件和每个PDF二级子文件的文件头和文件尾设置跳转标签,跳转标签用于跳转到相邻的PDF子文件或PDF二级子文件。跳转标签可设置为自动跳转标签或手动跳转标签,其中,自动跳转标签下可自动跳转到相邻的PDF子文件或PDF二级子文件,即用户在阅读到当前PDF子文件或PDF二级子文件的跳转标签位置时,自动跳转到相邻的PDF子文件或PDF二级子文件。手动跳转标签需要用户进行操作,即用户在阅读到当前PDF子文件或PDF二级子文件的跳转标签位置时,需要手动点击或滑动该手动跳转标签,在用户操作后才会跳转到相邻的PDF子文件或PDF二级子文件。若为自动跳转标签,则可隐藏不显示;若为手动跳转标签,需要显示。本实施例通过设置跳转标签实现分割后相邻PDF子文件或PDF二级子文件的跳转,方便用户阅读。
在一些实施例中,该PDF文件分割方法中在分割得到PDF子文件或PDF二级子文件后还包括步骤:设置每个PDF子文件和每个PDF二级子文件对应的索引标签,由所有索引标签组成PDF子文件的所有PDF子文件和PDF二级子文件对应的索引目录。也就是说,设置每个PDF子文件和每个PDF二级子文件对应的索引标签包括:根据每个PDF子文件或PDF二级子文件的文件内容生成对应的索引标签,该索引标签不同于PDF文件的原始目录结构,也不同于PDF文件的页码标记。本实施例为分割后的PDF子文件和PDF二级子文件设置索引标签和索引目录,方便用户查询。
在一优选实施例中,参考图2,本实施例的网页中PDF文件加载方法包括下述步骤:
S201、网页服务器按照上述实施例的PDF文件分割方法分割PDF文件,得到多个PDF子文件和PDF二级子文件,设置每个PDF子文件和PDF二级子文件对应的网络地址。
S202、网页服务器接收智能终端发送的用于访问PDF文件的访问请求,网页服务器下发访问请求对应的PDF文件中的一个PDF子文件或一个PDF二级子文件。智能终端发送的访问请求可以访问PDF文件中任意一个PDF子文件或任意一个PDF二级子文件,也就是说,智能终端发送的访问请求可以访问PDF文件中排序第一的PDF子文件或PDF二级子文件,也可能访问PDF文件中排序在中间的PDF子文件或PDF二级子文件,也可能访问PDF文件中排序在最后的PDF子文件或PDF二级子文件。作为选择,智能终端可选用智能手机、平板电脑、笔记本电脑、台式电脑等,智能终端上安装有用于访问网页服务器的应用程序或浏览器。
S203、智能终端接收并显示PDF子文件或PDF二级子文件。
S204、网页服务器接收智能终端发送的连续访问请求,网页服务器下发PDF子文件或PDF二级子文件相邻排列的PDF子文件或PDF二级子文件。
S205、智能终端接收并显示PDF子文件或PDF二级子文件。
S206、重复执行步骤S204和步骤S205,实现PDF文件中PDF子文件和PDF二级子文件的连续显示。优选地,在PDF文件的所有PDF子文件和PDF二级子文件全部显示后,结束流程。
本实施例将PDF文件分割为多个PDF子文件,用户访问时仅需要加载PDF子文件或PDF二级子文件,加载速度快,提高用户使用体验。
在一些实施例中,该网页中PDF文件加载方法还包括步骤:
S207、网页服务器接收智能终端发送的下载请求,网页服务器下发下载请求对应的PDF文件中至少一个PDF子文件或至少一个PDF二级子文件。
S208、智能终端接收并保存PDF子文件或PDF二级子文件。
本实施例将PDF文件分割为多个PDF子文件,用户在下载PDF文件时,可仅下载自己需要的部分文件,提高用户使用体验。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据此实施,并不能限制本发明的保护范围。凡跟本发明权利要求范围所做的均等变化与修饰,均应属于本发明权利要求的涵盖范围。

Claims (10)

1.一种PDF文件分割方法,其特征在于,包括:
S101、检测PDF文件是否有原始目录结构;
S102、若有,则按照所述原始目录结构将所述PDF文件分割为多个PDF子文件;
S103、若无,则按照所述PDF文件的文件内容和所述PDF文件对应的关联词库将所述PDF文件分割为多个PDF子文件。
2.根据权利要求1所述的PDF文件分割方法,其特征在于,在所述步骤S102之后还包括:
S1041、判断所述PDF子文件的页码长度是否小于第一预设页码长度;
S1042、若是,则按照所述PDF子文件对应目录级别的上一级目录重新划分所述PDF文件。
3.根据权利要求1所述的PDF文件分割方法,其特征在于,在所述步骤S102之后还包括:
S1051、判断所述PDF子文件的页码长度是否大于第二预设页码长度;
S1052、若是,则按照所述PDF子文件的文件内容和所述PDF子文件对应的关联词库将所述PDF子文件分割为多个PDF二级子文件。
4.根据权利要求3所述的PDF文件分割方法,其特征在于,在分割得到所述PDF子文件或所述PDF二级子文件后还包括:
所述PDF子文件和所述PDF二级子文件按照其在所述PDF文件中的位置顺序依次排列。
5.根据权利要求4所述的PDF文件分割方法,其特征在于,在分割得到所述PDF子文件或所述PDF二级子文件后还包括:
在每个所述PDF子文件和每个所述PDF二级子文件的文件头和文件尾设置跳转标签,所述跳转标签用于跳转到相邻的所述PDF子文件或所述PDF二级子文件。
6.根据权利要求4所述的PDF文件分割方法,其特征在于,在分割得到所述PDF子文件或所述PDF二级子文件后还包括:
设置每个所述PDF子文件和每个所述PDF二级子文件对应的索引标签,由所有索引标签组成所述PDF子文件的所有所述PDF子文件和所述PDF二级子文件对应的索引目录。
7.根据权利要求6所述的PDF文件分割方法,其特征在于,所述设置每个所述PDF子文件和每个所述PDF二级子文件对应的索引标签包括:
根据每个所述PDF子文件或所述PDF二级子文件的文件内容生成对应的索引标签。
8.根据权利要求1所述的PDF文件分割方法,其特征在于,所述步骤S3中按照所述PDF文件的文件内容和所述PDF文件对应的关联词库将所述PDF文件分割为多个PDF子文件包括:
由所述PDF文件的文件内容和所述PDF文件对应的关联词库评估所述PDF文件中段落之间的关联度和相似度,将所述关联度和相似度达到预设标准的段落作为一个所述PDF子文件。
9.一种网页中PDF文件加载方法,其特征在于,包括:
S201、网页服务器按照如权利要求1至8任一项所述的PDF文件分割方法分割PDF文件,得到多个PDF子文件和PDF二级子文件,设置每个所述PDF子文件和所述PDF二级子文件对应的网络地址;
S202、所述网页服务器接收智能终端发送的用于访问所述PDF文件的访问请求,所述网页服务器下发所述访问请求对应的PDF文件中的一个所述PDF子文件或一个所述PDF二级子文件;
S203、所述智能终端接收并显示所述PDF子文件或所述PDF二级子文件;
S204、所述网页服务器接收智能终端发送的连续访问请求,所述网页服务器下发所述PDF子文件或所述PDF二级子文件相邻排列的所述PDF子文件或所述PDF二级子文件;
S205、所述智能终端接收并显示所述PDF子文件或所述PDF二级子文件;
S206、重复执行所述步骤S204和所述步骤S205,实现所述PDF文件中PDF子文件和PDF二级子文件的连续显示。
10.根据权利要求9所述的网页中PDF文件加载方法,其特征在于,还包括:
S207、所述网页服务器接收所述智能终端发送的下载请求,所述网页服务器下发所述下载请求对应的PDF文件中至少一个所述PDF子文件或至少一个所述PDF二级子文件;
S208、所述智能终端接收并保存所述PDF子文件或所述PDF二级子文件。
CN202011619052.9A 2020-12-30 2020-12-30 一种pdf文件分割方法和网页中pdf文件加载方法 Pending CN112597422A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011619052.9A CN112597422A (zh) 2020-12-30 2020-12-30 一种pdf文件分割方法和网页中pdf文件加载方法
JP2021209623A JP2022104893A (ja) 2020-12-30 2021-12-23 Pdfファイル分割方法及びホームページにpdfファイルを読み込む方法
EP21217785.1A EP4024235A1 (en) 2020-12-30 2021-12-27 Method for segmenting pdf document and method for loading pdf document in webpage
US17/563,068 US11928165B2 (en) 2020-12-30 2021-12-28 Method for segmenting PDF document and method for loading PDF document in webpage

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011619052.9A CN112597422A (zh) 2020-12-30 2020-12-30 一种pdf文件分割方法和网页中pdf文件加载方法

Publications (1)

Publication Number Publication Date
CN112597422A true CN112597422A (zh) 2021-04-02

Family

ID=75206392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011619052.9A Pending CN112597422A (zh) 2020-12-30 2020-12-30 一种pdf文件分割方法和网页中pdf文件加载方法

Country Status (4)

Country Link
US (1) US11928165B2 (zh)
EP (1) EP4024235A1 (zh)
JP (1) JP2022104893A (zh)
CN (1) CN112597422A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050459A1 (en) * 2003-07-03 2005-03-03 Fujitsu Limited Automatic partition method and apparatus for structured document information blocks
JP2005190074A (ja) * 2003-12-25 2005-07-14 Fuji Xerox Co Ltd 文書分割装置およびその方法、プログラム、インデックス作成装置
CN101996162A (zh) * 2009-08-26 2011-03-30 华为技术有限公司 电子书章节处理方法、装置及系统
CN103064839A (zh) * 2011-10-19 2013-04-24 北京中文在线数字出版股份有限公司 一种Pdf全文在线检索方法
CN103176952A (zh) * 2011-12-20 2013-06-26 北大方正集团有限公司 文档显示方法和装置
CN103218453A (zh) * 2013-04-28 2013-07-24 南京龙渊微电子科技有限公司 一种文件拆分方法及装置
US20160050155A1 (en) * 2013-04-28 2016-02-18 Xiaomi Inc. Method and device for downloading file
CN107633039A (zh) * 2017-09-13 2018-01-26 张贝贝 一种按涉及股权转让主题的pdf文件切割方法
CN107943915A (zh) * 2017-11-20 2018-04-20 福建亿榕信息技术有限公司 基于html5的ofd文件在线显示的方法以及装置
CN109600428A (zh) * 2018-11-27 2019-04-09 深圳市关运通科技有限公司 一种自动化上传附件并匹配关联的方法和装置
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统
CN110493344A (zh) * 2019-08-22 2019-11-22 视联动力信息技术股份有限公司 文件下载方法和装置
CN110765385A (zh) * 2019-10-24 2020-02-07 北京华宇信息技术有限公司 一种ofd文档网页端浏览的方法及系统
CN111680198A (zh) * 2020-04-29 2020-09-18 浙江海洋大学 基于文件分割与特征提取的档案管理系统及方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330979A (ja) * 1999-05-18 2000-11-30 Ntt Data Corp 検索対象となる電子文書の解析方法及び電子文書登録システム
JP4299963B2 (ja) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー 意味的まとまりに基づいて文書を分割する装置および方法
AU2003213644A1 (en) * 2003-02-03 2004-08-30 Vincent Demarcus Online method and system for converting any file in any format into a pdf file for various uses
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
JP2005108006A (ja) * 2003-09-30 2005-04-21 Sorun Corp 文書データ管理方法、文書データ管理システム及び文書データ管理用コンピュータプログラム
JP5053550B2 (ja) * 2005-02-01 2012-10-17 キヤノン株式会社 文書処理装置及び方法と文書処理システム
US20080082554A1 (en) * 2006-10-03 2008-04-03 Paul Pedersen Systems and methods for providing a dynamic document index
JPWO2009078183A1 (ja) * 2007-12-19 2011-04-28 日本電気株式会社 文書分割システム
JP5146108B2 (ja) * 2008-05-27 2013-02-20 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
CN101901341B (zh) * 2009-05-25 2013-10-23 株式会社理光 从可移植电子文档中提取光栅图像的方法和设备
US9430470B2 (en) * 2010-05-26 2016-08-30 Content Catalyst Limited Automated report service tracking system and method
JP5993849B2 (ja) * 2011-06-09 2016-09-14 達也 進藤 文書共有システム
WO2013048428A1 (en) * 2011-09-30 2013-04-04 Hewlett-Packard Development Company Personalized content delivery system and method
US8976378B2 (en) * 2013-06-03 2015-03-10 Xerox Corporation Pre-flight system for PDF/VT
CN103678698A (zh) * 2013-12-27 2014-03-26 福建福昕软件开发股份有限公司北京分公司 一种提高pdf文档在线浏览加载速度的方法及其装置
US10282424B2 (en) * 2015-05-19 2019-05-07 Researchgate Gmbh Linking documents using citations
US10678488B2 (en) * 2016-01-20 2020-06-09 Ricoh Company, Ltd. Dynamic splitting of portable document format print jobs
JP2018195305A (ja) * 2017-05-12 2018-12-06 アクセラテクノロジ株式会社 情報処理システムおよびプログラム
US10521161B2 (en) * 2017-09-29 2019-12-31 Ricoh Company, Ltd. Information processing device, communication system, and recording medium storing instructions
US20190238708A1 (en) * 2018-01-29 2019-08-01 Open Text Corporation System and method for monitoring and optimizing a document capture system
US10635743B2 (en) * 2018-03-12 2020-04-28 Microsoft Technology Licensing, Llc Automatic extraction of document page numbers from PDF
JP2019200582A (ja) * 2018-05-16 2019-11-21 ファナック株式会社 検索装置、検索方法及び検索プログラム
CN111355766B (zh) * 2018-12-20 2023-08-04 福建福昕软件开发股份有限公司 Pdf文件在网络上按需加载的渲染方法
US20200218439A1 (en) * 2019-01-04 2020-07-09 Quark Inc. System and method for search result visualisation
US10402641B1 (en) * 2019-03-19 2019-09-03 Capital One Services, Llc Platform for document classification
US11922712B2 (en) * 2019-07-26 2024-03-05 Patnotate Llc Technologies for content analysis
US11049235B2 (en) * 2019-08-30 2021-06-29 Sas Institute Inc. Techniques for extracting contextually structured data from document images
US11087188B2 (en) * 2019-09-30 2021-08-10 Kyocera Document Solutions Inc. Smart page decoding system including linearization for viewing and printing
US11244203B2 (en) * 2020-02-07 2022-02-08 International Business Machines Corporation Automated generation of structured training data from unstructured documents

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050459A1 (en) * 2003-07-03 2005-03-03 Fujitsu Limited Automatic partition method and apparatus for structured document information blocks
JP2005190074A (ja) * 2003-12-25 2005-07-14 Fuji Xerox Co Ltd 文書分割装置およびその方法、プログラム、インデックス作成装置
CN101996162A (zh) * 2009-08-26 2011-03-30 华为技术有限公司 电子书章节处理方法、装置及系统
CN103064839A (zh) * 2011-10-19 2013-04-24 北京中文在线数字出版股份有限公司 一种Pdf全文在线检索方法
CN103176952A (zh) * 2011-12-20 2013-06-26 北大方正集团有限公司 文档显示方法和装置
US20160050155A1 (en) * 2013-04-28 2016-02-18 Xiaomi Inc. Method and device for downloading file
CN103218453A (zh) * 2013-04-28 2013-07-24 南京龙渊微电子科技有限公司 一种文件拆分方法及装置
CN107633039A (zh) * 2017-09-13 2018-01-26 张贝贝 一种按涉及股权转让主题的pdf文件切割方法
CN107943915A (zh) * 2017-11-20 2018-04-20 福建亿榕信息技术有限公司 基于html5的ofd文件在线显示的方法以及装置
CN110083805A (zh) * 2018-01-25 2019-08-02 北京大学 一种将Word文件转换为EPUB文件的方法及系统
CN109600428A (zh) * 2018-11-27 2019-04-09 深圳市关运通科技有限公司 一种自动化上传附件并匹配关联的方法和装置
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
CN110493344A (zh) * 2019-08-22 2019-11-22 视联动力信息技术股份有限公司 文件下载方法和装置
CN110765385A (zh) * 2019-10-24 2020-02-07 北京华宇信息技术有限公司 一种ofd文档网页端浏览的方法及系统
CN111680198A (zh) * 2020-04-29 2020-09-18 浙江海洋大学 基于文件分割与特征提取的档案管理系统及方法

Also Published As

Publication number Publication date
US11928165B2 (en) 2024-03-12
EP4024235A1 (en) 2022-07-06
JP2022104893A (ja) 2022-07-12
US20220207090A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US20170177733A1 (en) Tenantization of search result ranking
JP6827116B2 (ja) ウェブページのクラスタリング方法及び装置
US20070133067A1 (en) Forming a master page for an electronic document
CN107844493B (zh) 一种文件关联方法及系统
CN111488556A (zh) 一种嵌套文档提取方法、装置及电子设备和存储介质
CN115329048A (zh) 一种语句检索的方法及装置、电子设备、存储介质
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
US9164978B2 (en) Identifying objects within a multidimensional array
CN108897819B (zh) 一种数据搜索方法和装置
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN106933801B (zh) 一种词库的更新方法和装置
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
CN108256064B (zh) 一种数据搜索方法和装置
CN112597422A (zh) 一种pdf文件分割方法和网页中pdf文件加载方法
CN102135969A (zh) 构造索引库的方法和设备以及查询方法
CN107168627B (zh) 用于触摸屏的文本编辑方法和装置
CN114168534A (zh) 加快es文件进行本地全文检索的方法、系统、装置及介质
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
CN114492303A (zh) 电子书的排版处理方法、电子设备及存储介质
CN102163199A (zh) 构造索引库的方法和设备以及查询方法
CN112905733A (zh) 一种基于ocr识别技术的图书保存方法、系统及装置
CN111858476A (zh) 文件处理方法、装置、电子设备和计算机可读存储介质
CN105335522B (zh) 资源聚合方法和装置
US20130290657A1 (en) Storing data in containers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination