CN116701806B - 一种页面显示的处理方法、装置、终端和存储介质 - Google Patents

一种页面显示的处理方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN116701806B
CN116701806B CN202310683196.8A CN202310683196A CN116701806B CN 116701806 B CN116701806 B CN 116701806B CN 202310683196 A CN202310683196 A CN 202310683196A CN 116701806 B CN116701806 B CN 116701806B
Authority
CN
China
Prior art keywords
page
text information
level data
display level
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310683196.8A
Other languages
English (en)
Other versions
CN116701806A (zh
Inventor
黄先财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wancai Information Technology Co ltd
Original Assignee
Guangzhou Wancai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wancai Information Technology Co ltd filed Critical Guangzhou Wancai Information Technology Co ltd
Priority to CN202310683196.8A priority Critical patent/CN116701806B/zh
Publication of CN116701806A publication Critical patent/CN116701806A/zh
Application granted granted Critical
Publication of CN116701806B publication Critical patent/CN116701806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种页面显示的处理方法、装置、终端和存储介质,该方法包括:获取PDF文档;对页面PDF文档进行转换提取处理以确定对应页面PDF文档的叠层转换数据,其中页面叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,页面第一显示层级数据用于显示文本信息,页面第二显示层级数据用于显示非文本信息;确定目标页数;根据页面目标页数从页面叠层转换数据中确定打包数据,其中页面打包数据用于页面显示。该方法通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够自适应清晰缩放,同时通过按需加载提高了流畅度。

Description

一种页面显示的处理方法、装置、终端和存储介质
技术领域
本申请涉及网页处理技术领域,尤其是涉及一种页面显示的处理方法、装置、终端和存储介质。
背景技术
在H5或Web页面上对PDF文档进行显示时,以H5为例,现有技术一般采用PDFjs技术实现PDF文档格式的转换以在H5页面上显示,PDFjs技术基于HTML5和CSS3实现,其原理具体如下:首先解析PDF文档,通过解析PDF文档的字节流,将其转化为含有结构化数据的对象模型,其中PDF的结构包括页面、文本、图片、字体、链接等信息;然后将PDF转换为HTML,具体地,将PDF文档中的页面转换为HTML div元素,并使用CSS样式来呈现PDF页面的布局和样式,从而提高浏览器的兼容性和性能,同时还解析PDF文档中的字体,将其转换为Web字体文件并用于HTML页面中的文本渲染;最后加载PDF内容,通过WebGL或CanvasAPI来呈现PDF文档的图像内容,以使PDF文档的呈现质量更高并提供一些特效处理。
PDFjs技术在解析过程比较复杂,而且现有技术在H5页面显示PDF文档时,需要直接将整个PDF文档一次性完全解析再对整个解析结果渲染以在前端显示,当PDF文档大小过大时,例如50M、100M或更大的文件大小,一方面由于PDF文件是一种二进制格式的文件,在网页中加载显示时需要借助JavaScript或其他客户端脚本解析器来实现,并且在解析pdf二进制时需要比较大的计算量,这将导致解析速度慢;另一方面,此时H5因需通过网络加载大文件而变得缓慢,这对用户而言,需要较长的前端数据加载时间。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提出了一种页面显示的处理方法、装置、终端和存储介质,该方法通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行清晰缩放。
根据本申请的一个方面,本发明采用以下技术方案:
一种页面显示的处理方法,用于在B/S交互下的服务器端执行,所述方法包括以下步骤:
获取PDF文档;
对所述PDF文档进行转换提取处理以确定对应所述PDF文档的叠层转换数据,其中所述叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,所述第一显示层级数据用于显示文本信息,所述第二显示层级数据用于显示非文本信息,所述非文本信息通过以下处理得到:删除PDF文档中每一页的所有字符信息,然后进行截图得到无字符信息的图像,进而确定为所述非文本信息;
确定目标页数,其中所述目标页数对应于当前用户在所述PDF文档中查看的页数;
根据所述目标页数从所述叠层转换数据中确定打包数据,其中所述打包数据用于页面显示;
其中,所述转换提取处理,包括:解析所述PDF文档以得到对应的PDF格式信息;从所述PDF格式信息中筛选文本信息;在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据;将PDF文档解析成PDF格式信息,然后根据前端的背景层和前景层对PDF格式信息进行筛选,其中第一显示层级数据用于渲染前景层,第二显示层级数据用于渲染背景层,从而使得文本信息与非文本信息以叠层形式凸出文本信息的显示效果,通过文本信息以矢量格式进行存储,通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放;
其中,所述第二显示层级数据在页面显示时用于设置于所述第一显示层级数据所显示内容的背景,以使所述文本信息通过叠加在所述非文本信息上以覆盖替换存在重叠的位置点;
其中,所述筛选文本信息包括:获取字符信息,根据字符信息确定字符的字体以进行提取,通过关联字符和字体构成文本信息。
作为优选的技术方案,在根据所述目标页数从所述叠层转换数据中确定打包数据中,具体为:从所述叠层转换数据中确定对应所述目标页数的第一显示层级数据和第二显示层级数据,同时基于预加载页数确定关联的第一显示层级数据和第二显示层级数据,一并作为所述打包数据。
根据本申请的另一个方面,本发明采用以下技术方案:
一种页面显示的处理方法,用于基于浏览器的页面显示,所述方法包括以下步骤:
确定目标页数,其中所述目标页数对应于当前用户在PDF文档中查看的页数;
接收打包数据,所述打包数据为根据所述目标页数从叠层转换数据中确定得到,所述叠层转换数据为对所述PDF文档进行转换提取处理以确定,所述转换提取处理具体包括:解析PDF文档以得到对应的PDF格式信息,从PDF格式信息中筛选文本信息;在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据;
所述筛选文本信息包括:获取字符信息,根据字符信息确定字符的字体以进行提取,通过关联字符和字体构成所述文本信息,所述PDF文档的内容与叠层转换数据的内容对应,所述叠层转换数据与所述PDF文档对应,其中所述叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,所述第一显示层级数据用于显示所述文本信息,所述第二显示层级数据用于显示非文本信息,将PDF文档解析成PDF格式信息,然后根据前端的背景层和前景层对PDF格式信息进行筛选,其中第一显示层级数据用于渲染前景层,第二显示层级数据用于渲染背景层,从而使得文本信息与非文本信息以叠层形式凸出文本信息的显示效果,通过文本信息以矢量格式进行存储,通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放;所述非文本信息通过以下处理得到:删除PDF文档中每一页的所有字符信息,然后进行截图得到无字符信息的图像,进而确定为所述非文本信息,所述第二显示层级数据在页面显示时用于设置于所述第一显示层级数据所显示内容的背景,以使所述文本信息通过叠加在所述非文本信息上以覆盖替换存在重叠的位置点;
通过浏览器页面解析并加载所述打包数据以显示页面内容。
作为优选的技术方案,所述方法还包括:响应于用户的缩放操作指令以完成对所述浏览器页面进行缩放。
作为优选的技术方案,所述缩放操作指令包括缩小操作指令和放大操作指令;
在响应于用户的缩放操作指令以完成对所述浏览器页面进行缩放中,具体包括:
当确定所述缩放操作指令为缩小操作指令时,根据缩小倍数对所述浏览器页面缩小;
当确定所述缩放操作指令为放大操作指令时,根据放大倍数对所述浏览器页面缩小;
其中,所述缩小倍数为通过第一用户操作形式确定,所述第一用户操作形式包括:按下第一按键、触发鼠标滚轮以第一方向滚动幅度或输入数值,所述放大倍数为通过第二用户操作形式确定,所述第二用户操作形式包括:按下第二按键、触发鼠标滚轮以第二方向滚动幅度或输入数值。
根据本申请的另一个方面,本发明采用以下技术方案:
一种页面显示的处理装置,包括:
文档资源模块,用于获取PDF文档;
转换提取处理模块,用于对所述PDF文档进行转换提取处理以确定对应所述PDF文档的叠层转换数据,其中所述PDF文档的内容与叠层转换数据的内容对应,所述叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,所述第一显示层级数据用于显示文本信息,所述第二显示层级数据用于显示非文本信息;
打包数据确定模块,用于确定目标页数,根据所述目标页数从所述叠层转换数据中确定打包数据,其中所述目标页数对应于当前用户在所述PDF文档中查看的页数,所述打包数据用于页面显示;
所述转换提取处理,具体包括:解析所述PDF文档以得到对应的PDF格式信息;从所述PDF格式信息中筛选文本信息;在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据;将PDF文档解析成PDF格式信息,然后根据前端的背景层和前景层对PDF格式信息进行筛选,其中第一显示层级数据用于渲染前景层,第二显示层级数据用于渲染背景层,从而使得文本信息与非文本信息以叠层形式凸出文本信息的显示效果,通过文本信息以矢量格式进行存储,通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放;
其中,所述第二显示层级数据在页面显示时用于设置于所述第一显示层级数据所显示内容的背景,以使所述文本信息通过叠加在所述非文本信息上以覆盖替换存在重叠的位置点;
其中,所述筛选文本信息,具体包括:获取字符信息,根据字符信息确定字符的字体以进行提取,通过关联字符和字体构成文本信息;
所述非文本信息可以通过以下处理得到:删除PDF文档中每一页的所有字符信息,然后进行截图得到无字符信息的图像,进而确定为非文本信息。
根据本申请的另一个方面,本发明采用以下技术方案:
一种终端,包括:至少一个存储器和至少一个处理器;
其中,所述至少一个存储器用于存储程序代码,所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行上述任一项所述的页面显示的处理方法。
根据本申请的另一个方面,本发明采用以下技术方案:
一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述任一项所述的页面显示的处理方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)通过对PDF文档进行转换提取处理,以得到用于显示文本信息的第一显示层级数据和用于显示非文本信息的第二显示层级数据,通过第一显示层级数据与第二显示层级数据的叠层显示,通过对文本信息失量化使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放。
(2)通过在服务器端进行转换提取处理,并根据目标页数从叠层转换数据中确定打包数据,以响应对前端页面显示的按需加载,根据实际需要加载对应页面,无需一次性对前端加载所有信息,也节省了H5交互过程中的流量,进而在页面显示过大的PDF文档时,避免了大量的前端数据加载时间,提高了用户浏览时的流畅度。
(3)在按需加载时还通过目标页数和预加载页数来实现预加载,对目标页数相邻的页面一起打包,以提前加载用户阅读位置的前后几页,以便在阅读当页面容的时候,加载后面的内容,再次切换跳转到下一页的时候,就无需等待。
附图说明
图1为本实施例1中的页面显示的处理方法在服务器应用时的流程示意图;
图2为本实施例1中进行转换提取处理的流程示意图;
图3为本实施例2中的页面显示的处理方法在浏览器应用时的流程示意图;
图4为本实施例2中响应缩放操作指令的流程示意图;
图5为本实施例3中页面显示的处理装置的框架示意图;
图6为本实施例4中终端的结构示意图;
图7为本实施例5中计算机设备的结构示意图;
附图标记:10、页面显示的处理装置;11、文档资源模块;12、转换提取处理模块;13、打包数据确定模块。
具体实施方式
在本公开的描述中,需要说明的是,下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。应当理解,本公开的方法实施方式中记载的各个步骤可以按和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供了一种页面显示的处理方法,该方法用于服务器,具体包括以下步骤:
步骤S1000:获取PDF文档;
在本实施例中,执行主体可以为终端设备或者服务器,能够提供浏览器的页面显示服务。其中,PDF文档由用户上传至服务器得到。
步骤S1100:对PDF文档进行转换提取处理以确定对应PDF文档的叠层转换数据;
在本实施例中,PDF文档的内容与叠层转换数据的内容对应,叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,第一显示层级数据用于显示文本信息,第二显示层级数据用于显示非文本信息。
参考图2所示,步骤S1100中的转换提取处理,具体包括:
步骤S1101:解析PDF文档以得到对应的PDF格式信息;
步骤S1102:从PDF格式信息中筛选文本信息;
在本实施例中,解析后PDF格式信息中包含文本信息、图形信息、图像信息、标签信息、安全性信息以及其他元数据信息。实际应用时,文本信息可以是排版好的文字、字体信息、颜色、字号、对齐方式等,其中字体信息用于在PDF文件进行精确控制文本的显示,字体信息包含关于使用的字体的完整信息,包括字体名称、类型、编码和大小等;图形信息可以是矢量图形信息,这些图形可以是线条、圆弧、椭圆、矩形、多边形等;图像信息也可以是包含位图图像信息,这些图像可以是扫描的图片、数字图像等;标签信息用于帮助屏幕阅读器和其他自适应设备以正确的方式解释和显示文档内容以起到一个辅助阅读的作用;安全性信息用于在PDF文件中限制对内容的访问或修改,包括密码保护、签名和加密等;其他元数据用于标识PDF文件中的文章关键词,例如标题、摘要、作者、日期、主题等。
示例性地,以svg格式为例进行说明,由于PDF格式信息对应PDF文件每一页上文本的每个字符或字符串的位置、字体、大小、颜色等信息,在提取时,通过对PDF格式信息的每个字符设置坐标的位置信息,从而构成绝对坐标系的转换,以方便形成svg格式的信息。此外,本领域技术人员也可以使用相对坐标的位置信息构成相对坐标系的转换,进而形成svg格式的信息。
在筛选文本信息中,包括:获取字符信息,根据字符信息确定字符的字体以进行提取,通过关联字符和字体构成文本信息。例如,“Hello”中,每个字符都对应一种字体,“H”对应黑体,“e”对应宋体等,则在构成文本信息时,通过字体信息确定了每个字符具体如何进行显示,通过关联字符和字体使得文本信息完整。
步骤S1103:在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据;
在本实施例中,矢量格式例如为svg或html文本格式等具有矢量化信息的格式;图片格式例如为jpg、png等用于呈现图片的格式。示例性地,当矢量格式为svg格式时,由于svg存储了比较多的字体信息,因此还可以对svg格式执行以下步骤以压缩整体svg大小:
删除无关字体信息,以压缩单个svg里字体大小;实际应用时,由于第一个svg包含的字符数量不多,一般是几百个字符,然后,提取的字体信息基本上会包含大量其它当前svg用不到的字符,即无关字体信息为当前svg用不到的字符信息。所以通过删除无关字体信息来消减当前svg格式中用不到的字符信息,达到压缩效果,以方便整体文本信息的传输。示例性地,svg中的所有字符仅使用了黑体和宋体两种字体信息,则在svg中通过删除其他所有无关的字体信息来达到压缩效果。
合并svg的字符结点数量,以减少结点数量,从而达到压缩svg数据大小的效果;实际应用时,结点数量影响前端渲染速度,结点越少,则渲染越快,从而通过减少结点数量可以提升svg的在浏览器的小渲染速度;此外,结点数量减少,使得svg少了许多重复的信息,svg数据大小所对应的kb大小也会减少。
在本实施例中,非文本信息可以通过以下处理得到:删除PDF文档中每一页的所有字符信息,然后进行截图得到无字符信息的图像,进而确定为非文本信息;
还需要说明的是,在PDFjs技术中,当需要在H5页面上对PDF文档转换后的页面进行缩放操作时,在前端显示时由于将PDF文档里的信息已经转换为png格式的图片,需要在放大时通过重新执行渲染过程来达到缩放清晰的效果。
在本实施例中,第二显示层级数据在页面显示时用于设置于第一显示层级数据所显示内容的背景,以使文本信息通过叠加在非文本信息上以覆盖替换存在重叠的位置点。即利用文本信息的像素点替换非文本信息上存在重叠的像素点,使得重叠位置的像素点实现覆盖替换。
在本实施例中,非文本信息包括图形信息和图像信息。例如,非文本信息可以为颜色块、图片、线段等非文本类的图案。本领域技术人员应当明白此处的图形信息和图像信息可以根据实际页面显示情况而选择其一或结合,因此在此不做限定。
实际应用时,以H5页面显示为例,执行主体将PDF文档解析成PDF格式信息,然后根据前端的背景层和前景层对PDF格式信息进行筛选,其中第一显示层级数据用于渲染前景层,第二显示层级数据用于渲染背景层,从而使得文本信息与非文本信息以叠层形式凸出文本信息的显示效果,通过文本信息以矢量格式进行存储,通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放,这样后续用户在前端浏览页面并对页面进行缩放时提高文本信息的清晰度,避免用户无法看清文字内容,避免了页面缩放产生的失真情况。
步骤S1200:确定目标页数,其中目标页数对应于当前用户在PDF文档中查看的页数;
在本实施例中,用户浏览页面,此时在PDF文档中查看的页数作为服务器端处理的依据。
步骤S1300:根据目标页数从叠层转换数据中确定打包数据,其中打包数据用于页面显示。
实际应用时,服务器端按照目标页数发送给前端相应的打包数据,以实现按需加载,避免了前端加载完整的大文件时等候的时间过长的问题,提高了用户浏览页面时在H5页面或Web页面进行查看过大PDF文件时的流畅度。例如,加载100M的PDF文档时,在较为常规的情况下,即网络带宽和设备性能比较好,通常需要数秒到十几秒的时间来加载和渲染该文件,而通过本发明的按需加载方式,仅需前端加载当前页面的数据,比如4张图片和部分文本信息合计100K左右的数据,那么仅需在几百毫秒到数秒之间完成加载。需要说明的是,在不同的网络环境下,加载时间可能会有显著差异。例如在4G网络和Wi-Fi网络中,前者的加载速度通常要比后者慢一些。此外,如果同时有多个请求正在进行,也可能会导致单个请求的加载时间变慢。但在相同网络环境下,本发明通过按需加载极大地减少了前端的即时加载压力,同时也提高了前端用户浏览页面的流畅度,从而为用户提供了较好的浏览体验。
在本实施例中,还可以通过预加载方式为用户提供更好的浏览体验。具体地,在根据目标页数从叠层转换数据中确定打包数据中,包括:从叠层转换数据中确定对应目标页数的第一显示层级数据和第二显示层级数据,同时基于预加载页数确定关联的第一显示层级数据和第二显示层级数据,一并作为打包数据。示例性地,基于目标页数确定用户当前观看的页面,同时基于预加载页数确定与该目标页数所相邻的第一显示层级数据和第二显示层级数据,进而一并打包给前端,即通过预加载方式使得用户在翻相邻页时无需等候,避免了相邻页数的页面在按需加载时需多次传输。
实施例2
如图3所示,本实施例提供了一种页面显示的处理方法,用于基于浏览器的页面显示,方法包括以下步骤:
步骤2000:确定目标页数,其中目标页数对应于当前用户在PDF文档中查看的页数;
步骤2100:接收打包数据,打包数据为根据目标页数从叠层转换数据中确定得到,叠层转换数据为对PDF文档进行转换提取处理以确定,PDF文档的内容与叠层转换数据的内容对应,叠层转换数据与PDF文档对应,其中叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,第一显示层级数据用于显示文本信息,第二显示层级数据用于显示非文本信息;
步骤2200:通过浏览器页面解析并加载打包数据以显示页面内容。
步骤2300:响应于用户的缩放操作指令以完成对浏览器页面进行缩放。
在本实施例中,缩放操作指令包括缩小操作指令和放大操作指令,结合图4所示,在响应于用户的缩放操作指令以完成对浏览器页面进行缩放中,具体包括:
步骤2301:当确定缩放操作指令为缩小操作指令时,根据缩小倍数对浏览器页面缩小;
步骤2302:当确定缩放操作指令为放大操作指令时,根据放大倍数对浏览器页面缩小;
实际应用时,缩小倍数为通过第一用户操作形式确定,第一用户操作形式包括:按下第一按键、触发鼠标滚轮以第一方向滚动幅度或输入数值,放大倍数为通过第二用户操作形式确定,第二用户操作形式包括:按下第二按键、触发鼠标滚轮以第二方向滚动幅度或输入数值。
实施例3
如图5所示,本实施例提供了一种页面显示的处理装置10,包括:
文档资源模块11,用于获取PDF文档;
转换提取处理模块12,用于对PDF文档进行转换提取处理以确定对应PDF文档的叠层转换数据,其中PDF文档的内容与叠层转换数据的内容对应,叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,第一显示层级数据用于显示文本信息,第二显示层级数据用于显示非文本信息;
打包数据确定模块13,用于确定目标页数,根据目标页数从叠层转换数据中确定打包数据,其中目标页数对应于当前用户在PDF文档中查看的页数,打包数据用于页面显示。
在本实施例中,在转换提取处理中,具体包括:
解析PDF文档以得到对应的PDF格式信息;
从PDF格式信息中筛选文本信息;
在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据。
实施例4
如图6所示,本实施例提供了一种终端,包括:至少一个存储器和至少一个处理器;
其中,至少一个存储器用于存储程序代码,至少一个处理器用于调用至少一个存储器所存储的程序代码执行上述实施例中的任一种页面显示的处理方法。
实施例5
如图7所示,本实施例提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库为物理层用于存储各种数据库。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种页面显示的处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例6
本实施例提供了一种存储介质,存储介质用于存储程序代码,程序代码用于执行上述实施例中的任一种页面显示的处理方法。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种页面显示的处理方法,其特征在于,所述方法包括以下步骤:
获取PDF文档;
对所述PDF文档进行转换提取处理以确定对应所述PDF文档的叠层转换数据,其中所述叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,所述第一显示层级数据用于显示文本信息,所述第二显示层级数据用于显示非文本信息,所述非文本信息通过以下处理得到:删除PDF文档中每一页的所有字符信息,然后进行截图得到无字符信息的图像,进而确定为所述非文本信息;
确定目标页数,其中所述目标页数对应于当前用户在所述PDF文档中查看的页数;
根据所述目标页数从所述叠层转换数据中确定打包数据,其中所述打包数据用于页面显示;
其中,所述转换提取处理,包括:解析所述PDF文档以得到对应的PDF格式信息;从所述PDF格式信息中筛选文本信息;在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据;将PDF文档解析成PDF格式信息,然后根据前端的背景层和前景层对PDF格式信息进行筛选,其中第一显示层级数据用于渲染前景层,第二显示层级数据用于渲染背景层,从而使得文本信息与非文本信息以叠层形式凸出文本信息的显示效果,通过文本信息以矢量格式进行存储,通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放;
其中,所述第二显示层级数据在页面显示时用于设置于所述第一显示层级数据所显示内容的背景,以使所述文本信息通过叠加在所述非文本信息上以覆盖替换存在重叠的位置点;
其中,所述筛选文本信息包括:获取字符信息,根据字符信息确定字符的字体以进行提取,通过关联字符和字体构成文本信息。
2.根据权利要求1所述的一种页面显示的处理方法,其特征在于:
在根据所述目标页数从所述叠层转换数据中确定打包数据中,具体为:
从所述叠层转换数据中确定对应所述目标页数的第一显示层级数据和第二显示层级数据,同时基于预加载页数确定关联的第一显示层级数据和第二显示层级数据,一并作为所述打包数据。
3.一种页面显示的处理方法,用于基于浏览器的页面显示,其特征在于,所述方法包括以下步骤:
确定目标页数,其中所述目标页数对应于当前用户在PDF文档中查看的页数;
接收打包数据,所述打包数据为根据所述目标页数从叠层转换数据中确定得到,所述叠层转换数据为对所述PDF文档进行转换提取处理以确定,所述转换提取处理具体包括:解析PDF文档以得到对应的PDF格式信息,从PDF格式信息中筛选文本信息;在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据;
所述筛选文本信息包括:获取字符信息,根据字符信息确定字符的字体以进行提取,通过关联字符和字体构成所述文本信息,所述PDF文档的内容与叠层转换数据的内容对应,所述叠层转换数据与所述PDF文档对应,其中所述叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,所述第一显示层级数据用于显示所述文本信息,所述第二显示层级数据用于显示非文本信息,将PDF文档解析成PDF格式信息,然后根据前端的背景层和前景层对PDF格式信息进行筛选,其中第一显示层级数据用于渲染前景层,第二显示层级数据用于渲染背景层,从而使得文本信息与非文本信息以叠层形式凸出文本信息的显示效果,通过文本信息以矢量格式进行存储,通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放;所述非文本信息通过以下处理得到:删除PDF文档中每一页的所有字符信息,然后进行截图得到无字符信息的图像,进而确定为所述非文本信息,所述第二显示层级数据在页面显示时用于设置于所述第一显示层级数据所显示内容的背景,以使所述文本信息通过叠加在所述非文本信息上以覆盖替换存在重叠的位置点;
通过浏览器页面解析并加载所述打包数据以显示页面内容。
4.根据权利要求3所述的一种页面显示的处理方法,其特征在于,所述方法还包括:
响应于用户的缩放操作指令以完成对所述浏览器页面进行缩放。
5.根据权利要求4所述的一种页面显示的处理方法,其特征在于:
所述缩放操作指令包括缩小操作指令和放大操作指令;
在响应于用户的缩放操作指令以完成对所述浏览器页面进行缩放中,具体包括:
当确定所述缩放操作指令为缩小操作指令时,根据缩小倍数对所述浏览器页面缩小;
当确定所述缩放操作指令为放大操作指令时,根据放大倍数对所述浏览器页面缩小;
其中,所述缩小倍数为通过第一用户操作形式确定,所述第一用户操作形式包括:按下第一按键、触发鼠标滚轮以第一方向滚动幅度或输入数值,所述放大倍数为通过第二用户操作形式确定,所述第二用户操作形式包括:按下第二按键、触发鼠标滚轮以第二方向滚动幅度或输入数值。
6.一种页面显示的处理装置,其特征在于,包括:
文档资源模块,用于获取PDF文档;
转换提取处理模块,用于对所述PDF文档进行转换提取处理以确定对应所述PDF文档的叠层转换数据,其中所述PDF文档的内容与叠层转换数据的内容对应,所述叠层转换数据在每一页中进行分类为第一显示层级数据和第二显示层级数据,所述第一显示层级数据用于显示文本信息,所述第二显示层级数据用于显示非文本信息;
打包数据确定模块,用于确定目标页数,根据所述目标页数从所述叠层转换数据中确定打包数据,其中所述目标页数对应于当前用户在所述PDF文档中查看的页数,所述打包数据用于页面显示;
所述转换提取处理,具体包括:解析所述PDF文档以得到对应的PDF格式信息;从所述PDF格式信息中筛选文本信息;在每一页的处理中,将文本信息以矢量格式进行存储以确定当前处理页的第一显示层级数据,将剩下的非文本信息以图片格式进行存储以确定当前处理页的第二显示层级数据;将PDF文档解析成PDF格式信息,然后根据前端的背景层和前景层对PDF格式信息进行筛选,其中第一显示层级数据用于渲染前景层,第二显示层级数据用于渲染背景层,从而使得文本信息与非文本信息以叠层形式凸出文本信息的显示效果,通过文本信息以矢量格式进行存储,通过第一显示层级数据与第二显示层级数据的叠层显示使得页面显示时文本信息能够随着用户的缩放操作进行自适应的清晰缩放;
其中,所述第二显示层级数据在页面显示时用于设置于所述第一显示层级数据所显示内容的背景,以使所述文本信息通过叠加在所述非文本信息上以覆盖替换存在重叠的位置点;
其中,所述筛选文本信息,具体包括:获取字符信息,根据字符信息确定字符的字体以进行提取,通过关联字符和字体构成文本信息;
所述非文本信息可以通过以下处理得到:删除PDF文档中每一页的所有字符信息,然后进行截图得到无字符信息的图像,进而确定为非文本信息。
7.一种终端,包括:至少一个存储器和至少一个处理器;其特征在于:
所述至少一个存储器用于存储程序代码,所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行权利要求1至5中任一项所述的页面显示的处理方法。
8.一种存储介质,所述存储介质用于存储程序代码,其特征在于:
所述程序代码用于执行权利要求1至5中任一项所述的页面显示的处理方法。
CN202310683196.8A 2023-06-09 2023-06-09 一种页面显示的处理方法、装置、终端和存储介质 Active CN116701806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310683196.8A CN116701806B (zh) 2023-06-09 2023-06-09 一种页面显示的处理方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310683196.8A CN116701806B (zh) 2023-06-09 2023-06-09 一种页面显示的处理方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
CN116701806A CN116701806A (zh) 2023-09-05
CN116701806B true CN116701806B (zh) 2024-04-26

Family

ID=87828763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310683196.8A Active CN116701806B (zh) 2023-06-09 2023-06-09 一种页面显示的处理方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN116701806B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389969A (zh) * 2012-05-07 2013-11-13 腾讯科技(深圳)有限公司 一种用于移动终端预览pdf文件的方法、装置和系统
WO2015096188A1 (zh) * 2013-12-27 2015-07-02 福建福昕软件开发股份有限公司北京分公司 一种提高pdf文档在线浏览加载速度的方法及其装置
CN107004286A (zh) * 2014-12-01 2017-08-01 株式会社理光 图像处理装置、图像处理方法和计算机可读存储介质
CN110019037A (zh) * 2018-03-29 2019-07-16 中国平安财产保险股份有限公司 一种pdf文件展示方法、装置、设备及存储介质
CN113515922A (zh) * 2021-09-09 2021-10-19 杭州天谷信息科技有限公司 一种文档处理方法、系统、装置以及交互装置
CN114791988A (zh) * 2022-05-26 2022-07-26 厦门稿定股份有限公司 一种基于浏览器的pdf文件解析方法、系统、存储介质
CN115329720A (zh) * 2022-09-16 2022-11-11 北京百度网讯科技有限公司 一种文档展示方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258535A1 (en) * 2010-04-20 2011-10-20 Scribd, Inc. Integrated document viewer with automatic sharing of reading-related activities across external social networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389969A (zh) * 2012-05-07 2013-11-13 腾讯科技(深圳)有限公司 一种用于移动终端预览pdf文件的方法、装置和系统
WO2015096188A1 (zh) * 2013-12-27 2015-07-02 福建福昕软件开发股份有限公司北京分公司 一种提高pdf文档在线浏览加载速度的方法及其装置
CN107004286A (zh) * 2014-12-01 2017-08-01 株式会社理光 图像处理装置、图像处理方法和计算机可读存储介质
CN110019037A (zh) * 2018-03-29 2019-07-16 中国平安财产保险股份有限公司 一种pdf文件展示方法、装置、设备及存储介质
CN113515922A (zh) * 2021-09-09 2021-10-19 杭州天谷信息科技有限公司 一种文档处理方法、系统、装置以及交互装置
CN114791988A (zh) * 2022-05-26 2022-07-26 厦门稿定股份有限公司 一种基于浏览器的pdf文件解析方法、系统、存储介质
CN115329720A (zh) * 2022-09-16 2022-11-11 北京百度网讯科技有限公司 一种文档展示方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于WEB的PDF格式输出实现;孙传庆;朱正平;王秀丽;;甘肃科技;20070130(第01期);全文 *

Also Published As

Publication number Publication date
CN116701806A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US10417348B2 (en) Method for processing and loading web pages supporting multiple languages and system thereof
CN107885848B (zh) 基于web技术的网页截屏方法
US9484006B2 (en) Manipulation of textual content data for layered presentation
US9471550B2 (en) Method and apparatus for document conversion with font metrics adjustment for format compatibility
US5897644A (en) Methods and apparatus for fixed canvas presentations detecting canvas specifications including aspect ratio specifications within HTML data streams
US9898548B1 (en) Image conversion of text-based images
CN110110258A (zh) 一种文字转换的方法、装置以及电子设备
US20190073342A1 (en) Presentation of electronic information
CN110879937A (zh) 文档生成网页的方法、装置、计算机设备和存储介质
CN107301046B (zh) 图标的处理方法和装置、计算机设备和存储介质
US11281849B2 (en) System and method for printable document viewer optimization
CN113515928B (zh) 电子文本生成方法、装置、设备及介质
CN104050185A (zh) 一种页面内容缩放显示处理方法及装置
CN105005472B (zh) 一种web上显示维吾尔文字的方法及装置
CN105844683A (zh) 基于Canvas和WebWorker的像素差逐帧动画的实现方法
CN115328588A (zh) 一种基于浏览器前端渲染ofd文档的方法及系统
CN102340698A (zh) 一种基于svg的机顶盒界面的表现方法
CN114791988A (zh) 一种基于浏览器的pdf文件解析方法、系统、存储介质
CN116701806B (zh) 一种页面显示的处理方法、装置、终端和存储介质
US20140212057A1 (en) Methods for visual content processing , and systems and computer program codes thereto
CN115268904A (zh) 一种用户界面设计文件生成方法、装置、设备及介质
CN113033165B (zh) 电子表格文件解析方法、装置和计算机可读存储介质
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN107193815B (zh) 一种页面代码的处理方法、装置及设备
US9412187B2 (en) Delayed rendering of content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant